文章来源于互联网:FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎
「国产大模型 + 国产引擎 + 国产芯片」的完整技术闭环正在加速形成。
随着 DeepSeek 引燃市场对于大模型私有化部署的热情,模型部署的效率与成本成为企业 AI 落地的关键瓶颈。
今天,清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」(Chitu),率先实现了非 H 卡设备(英伟达 Hopper 架构之前的 GPU 卡及各类国产卡)运行原生 FP8 模型的突破。
在 A800 集群上的实测数据显示,用赤兔引擎部署 DeepSeek-671B 满血版推理服务,相比于 vLLM 部署方案,不仅使用的 GPU 数量减少了 50%,而且输出速度还提升了 3.15 倍。

-
https://github.com/thu-pacman/chitu
-
多元算力适配:不仅支持 NVIDIA 最新旗舰到旧款的多种型号,也为国产芯片提供优化支持。 -
全场景可伸缩:从纯 CPU 部署、单 GPU 部署到大规模集群部署,赤兔引擎提供可扩展的解决方案。 -
长期稳定运行:可应用于实际生产环境,稳定性足以承载并发业务流量。
