让AI知识触手可及

首页 » 【模型部署】在趋动云上使用vllm部署模型
内容目录

前言

本文将介绍如何在趋动云平台上使用vllm部署Qwen2-0.5B-Instruct对话模型和BGE向量化模型,实现高性能的模型服务。

vllm简介

vllm官网

安装说明:https://docs.vllm.ai/en/latest/getting_started/installation.html

vllm环境依赖

官方建议:

  • Python 3.12
  • CUDA 12.1

环境准备

选择镜像

  1. 选择镜像环境
    因为趋动云中通过pip install vllm会报错,所以我们在启动容器时,选择已经集成vllm的镜像。

安装vllm

(因为镜像中已经集成vllm,所以此处略过)

部署对话模型

下载模型

方式一:选择其他人上传并公开的模型。
在启动项目时,选择模型加载,在趋动云的公共模型中选择Qwen2.5-0.5B-Instruct模型。

方式二:自己下载模型。

切换至/gemini/code目录下,下载模型:

git lfs install
git clone https://www.modelscope.cn/Qwen/Qwen2.5-0.5B-Instruct.git

补充说明:

  • 此处模型也可以使用趋动云的模型上传功能,因为篇幅限制,此处略过。

启动vllm

使用以下命令启动vllm服务:

python -m vllm.entrypoints.openai.api_server --model Qwen2.5-0.5B-Instruct --host 0.0.0.0 --port 8000

运行结果:

注意事项:

  • 启动vllm命令时,它会在当前目录下寻找--model参数指定的模型文件夹,所以请确保当前目录下有Qwen2.5-0.5B-Instruct模型文件。

端口映射

在趋动云控制台的右侧"端口",添加端口映射如下:

调用验证

from openai import OpenAI
openai_api_key = "EMPTY"
openai_api_base = "http://direct.virtaicloud.com:28462/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model="Qwen2.5-0.5B-Instruct",
    messages=[
        {"role": "system", "content": "你是一个很有用的助手。"},
        {"role": "user", "content": "中华人民共和国的首都是哪里?"},
    ]
)
print("Chat response:", chat_response)

运行结果:

注意事项:

  • 示例中,趋动云配置端口映射后的外部地址为:direct.virtaicloud.com:28462,读者需要根据实际情况修改。
  • 示例中,部署的模型为Qwen2.5-0.5B-Instruct,请注意根据实际情况修改。
  • 示例中,本地调用代码略过了langchain库的安装,请记得安装。

部署embedding模型

vllm部署embedding模型存在诸多问题,如:vllm支持的embedding模型有限,vllm版本更新后支持的模型与官网不一致等等…

因此,embedding模型的部署还是建议通过xinference来进行,具体查看Xinference部署向量化模型

常见问题:

问题1:安装vllm时,报错ERROR: Could not install packages due to an OSError: [Errno 16] Device or resource busy: 'libnccl.so.2'

问题原因:该问题是因为安装vllm时,有程序占用了libnccl.so.2,导致安装失败。
解决方法:暂无好的解决方案,可以按照文章中的镜像,加载带有vllm的镜像。

问题2:启动vllm时,提示报错:OSError: We couldn't connect to 'https://huggingface.co' to load this file
问题原因:该问题一般是加载模型时,模型地址配置错误所致。
解决方法:检查--model 参数的模型地址是否正确,或者模型是否存在。

声明:一起AI技术所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
原创不易,内容版权受保护,感谢您的尊重与支持。
0 0 投票数
Article Rating
订阅评论
提醒
guest的头像
0 评论
内联反馈
查看所有评论
Picture of Dongming
Dongming
见天地,见众生,见自己。

分类文章

推荐活动

推荐文章

大模型时代需要什么样的安全水位?火山方舟首度公开「会话无痕」技术细节
刚刚,OpenAI安全副总裁、北大校友Lilian Weng宣布离职,有时间写博客了
这个夏天,天气版「山东卷」考验电网,达摩院气象大模型成功通关
豆包大模型团队开源RLHF框架,训练吞吐量最高提升20倍
百川智能发布一站式解决方案,助力企业“多、快、好、省”落地大模型
【项目实战】深度学习:二手车价格预测(含深度学习考试参考资料)
【模型部署】在AutoDL上使用Xinference部署模型
【模型训练】在AutoDL上使用LLamaFactory进行模型训练
DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式
【产品体验】使用dify部署微信群聊天机器人
0
希望看到您的想法,请您发表评论x
滚动至顶部