让AI知识触手可及

首页 » 【课程总结】day32(下):Xinference部署向量化模型

前言

【课程总结】day24(下):大模型部署调用(vLLM+LangChain)一文中,我们曾学习到大模型需要借助 vLLM 进行部署。本章我们将介绍另外一个较火的部署组件 Xinference

Xinference简介

Xinference 是一个高效的推理引擎,旨在加速深度学习模型的推理过程。它支持多种模型格式,并提供灵活的部署选项,适用于各种应用场景。

部署方法

准备环境

第一步:登录趋动云,新建一个项目

第二步:上传bge-m3模型

具体方法不再赘述,可以查看文章【产品体验】趋动云上使用LLaMaFactory进行模型微调的流程体验

第三步:进入开发环境

说明:

  • 根据实际测试,镜像最好选择CUDA12.1的官方镜像,该镜像在后续安装引擎和依赖时,不会存在兼容性问题。

安装引擎

第四步:安装引擎

pip install "xinference[transformers,vllm]"

说明:

  • Xinference有多种引擎,此处我们选择Transformers和vllm引擎。

第五步:安装依赖

pip install sentence-transformers

启动Xinference

第六步:启动 Supervisor

xinference-supervisor -H 0.0.0.0

第七步:新建一个terminal,启动 Worker

xinference-worker -e http://127.0.0.1:9997 -H 0.0.0.0

第八步:映射9997端口

启动向量化模型

第九步:根据趋动云提供的地址,使用浏览器访问映射后的地址,例如:http://direct.virtaicloud.com:49235

第十步:在xinference提供的UI界面中,选择embedding模型,并配置bge-m3模型相关参数后,点击启动

调用使用

from langchain_community.embeddings import XinferenceEmbeddings

server_url="http://direct.virtaicloud.com:49235" 
model_uid = "bge-m3" 

embed = XinferenceEmbeddings(server_url=server_url, model_uid=model_uid)

embed.embed_query("你好")

运行结果:

其他模型启动方法

如果想使用Xinference部署其他模型,可以下载对应模型后,在UI界面中选择并配置。

内容小结

  • Xinference是一个高效的推理引擎,其提供了比较便捷的UI界面进行模型部署。
  • 部署的大致步骤为:
    • 准备环境;
    • 安装引擎和依赖;
    • 启动Xinference;
    • 在Xinference中配置模型并启动;
    • 配置对外映射端口。
  • Xinference除了支持向量化模型部署之外,还支持其他更多类型模型部署,例如:对话模型、多模态大模型、rerank模型等。

参考资料

欢迎关注公众号以获得最新的文章和新闻

声明:一起AI技术所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
原创不易,内容版权受保护,感谢您的尊重与支持。
0 0 投票数
Article Rating
订阅评论
提醒
guest的头像
0 评论
内联反馈
查看所有评论
Picture of Dongming
Dongming
见天地,见众生,见自己。

分类文章

推荐活动

推荐文章

【课程总结】day24(上):大模型三阶段训练方法(LLaMa Factory)
Bonree ONE 2025春季版全球发布 | 云原生适配+LLM大模型接入成核心亮点!
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开“降成本”秘诀
32B 稠密模型推理能力超越 R1?秘密 AI 团队发布推理小模型 AM-Thinking-v1
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
商汤坐上大模型核心牌桌
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈
千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈
上交大冷静文:模型发展需要和芯片、系统厂商协同
0
希望看到您的想法,请您发表评论x
滚动至顶部