内容目录
见字如面,我的老友!这里是 17AITech,陪你深挖 AI,奋进科技浪潮。
背景
近期,OpenAI发布的Sora文生视频技术引起了广泛关注,这一技术能够将文本描述直接转化为高质量的视频内容,极大地推动了人工智能在视频生成领域的进步。在此背景下,国内众多大型科技企业纷纷响应,开展文生视频技术的研发与开源工作。
本章内容,我们将介绍在本地家用机上部署HunyuanVideo量化版本的方法。
HunyuanVideo模型简介
Hunyuan-Video是由腾讯推出的一款高质量的中文通用视频生成模型。该模型支持中文输入提示(Prompt),采用了图像-视频联合训练策略,并通过一系列精细的数据过滤技术,确保了视频的技术质量和审美吸引力。
资料
- 官方网站:https://aivideo.hunyuan.tencent.com/
- 论文地址:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf
- Github地址:https://github.com/Tencent/HunyuanVideo
- 效果体验地址: https://video.hunyuan.tencent.com/
问题
- 问题1:Hunyuan-Video所需要的GPU显存较高,家用电脑无法满足。
Model | Setting (height/width/frame) | GPU Peak Memory |
---|---|---|
HunyuanVideo | 720px1280px129f | 60GB |
HunyuanVideo | 544px960px129f | 45GB |
- 问题2:混元的体验地址,每位用户每天只能试用6次。
量化版本
基于以上的问题,Github上也有热心用户提供了量化版本,虽然效果不如非量化版本,但是至少可以在本地家用机上运行体验。接下来,我们将介绍本地部署方法。
环境介绍
- 显卡: RTX 4080 Super 16GB
- 内存: 32GB
- 系统: Windows11 + WSL + Ubuntu22.04
部署方法
1. 创建虚拟环境
conda create -n comfyui python==3.10.9
conda activate comfyui
2. 安装最新的pytorch
pip3 install torch torchvision torchaudio
3. 安装ComfyUI
因为量化版本模型基于ComfyUI,所以首先需要下载ComfyUI以及安装相关依赖。
# 下载ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git
# 进入ComfyUI文件夹
cd ComfyUI
# 安装依赖
pip install -r requirements.txt
4. 下载量化版本模型
量化版本在HunyunVideoReadme说明中有介绍,这里不做赘述。
# 切换至comfyui的custom_nodes文件夹
cd custom_nodes
# 下载ComfyUI-HunyuanVideoWrapper量化版本
git clone https://github.com/kijai/ComfyUI-HunyuanVideoWrapper.git
5. 下载tokenizer以及模型权重文件
根据量化版本的README说明,我们还需要下载tokenizer以及模型权重文件,具体方法如下:
5.1 安装Huggingface的命令行工具
python -m pip install "huggingface_hub[cli]"
5.2 下载clip-vit-large-patch14
# 使用huggingface-cli下载
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download openai/clip-vit-large-patch14 --local-dir ./clip-vit-large-patch14
下载完毕之后,将文件移动至ComfyUI/models/clip/clip-vit-large-patch14
。
5.3 下载tokenizer
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download Kijai/llava-llama-3-8b-text-encoder-tokenizer --local-dir ./llava-llama-3-8b-text-encoder-tokenizer
下载完毕之后,将文件移动至ComfyUI/models/LLM/llava-llama-3-8b-text-encoder-tokenizer
5.4 下载量化的权重文件
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download Kijai/HunyuanVideo_comfy --local-dir ./Kijai/HunyuanVideo_comfy
下载完毕之后:
- 将文件
hunyuan_video_720_*.safetensors
移动至ComfyUI/models/diffusion_models
- 将文件
hunyuan_video_vae_*.safetensors
移动至ComfyUI/models/vae
备注:
- 此处也可以直接浏览器访问https://hf-mirror.com/Kijai/HunyuanVideo_comfy/tree/main ,只下载所需要的权重文件即可。
剩余内容需解锁后查看