让AI知识触手可及

首页 » DeepSeek开源FlashMLA:Hopper GPU解码新标杆,测评大揭秘!

文章来源于互联网:DeepSeek开源FlashMLA:Hopper GPU解码新标杆,测评大揭秘!

DeepSeek今天正式启动为期五天的开源成果发布计划,首个亮相的项目是FlashMLA。这一开源项目将先进的MLA算法与GPU优化技术相结合,为大模型推理提供了一套高性能、低延迟的解码方案。

FlashMLA是一款专门为Hopper GPU(比如H800 SXM5)优化的高效MLA解码内核,旨在加速大模型的计算任务,尤其是在NVIDIA高端显卡上提升性能。

通过FlashMLA,开发者能够在处理大规模语言模型时显著提高效率,降低延迟。与传统解码器相比,FlashMLA在处理可变长度序列时展现出更高的计算效率。

PPIO派欧云第一时间对FlashMLA在主流Hopper GPU(H20、H100、H200、H800)上的性能进行了评测。在深入了解评测结果之前,我们先来了解一下相关的背景知识。

科普时间:什么是Hopper GPU、解码内核和MLA?

Hopper GPU:NVIDIA推出的新一代高性能GPU架构,专为AI和高性能计算(HPC)设计。它采用先进制程技术和创新架构,在复杂计算任务中提供卓越的性能和能效。主流的Hopper GPU包括H20、H100、H200和H800。

解码内核:专门用于加速解码任务的硬件或软件模块。在AI推理中,解码内核能显著提升模型推理的速度和效率,尤其是在处理序列数据时。

MLA:多头潜在注意力(Multi-head Latent Attention)的简称,MLA对KV缓存的需求更轻量化,使其在处理长序列时更容易扩展,同时性能也优于传统的多头注意力机制(Multi-Head Attention, MHA)。

FlashMLA性能实测

DeepSeek官方宣称,FlashMLA在H800 SXM5 GPU上可达到3000 GB/s的内存速度上限和580 TFLOPS的计算上限。在PPIO派欧云对FlashMLA的评测中,我们对不同参数配置下的性能进行了全面测试。为了更直观地展示结果,横坐标依次表示测试的参数配置,具体包括:

批次大小(Batch Size)

•序列长度(Sequence Length)

•注意力头的数量(Number of Attention Heads)

评测结果如下: 

H20 GPU:内存速度上限为1024 GB/s,计算性能上限为126 TFLOPS。

H100 GPU:内存速度上限为2906 GB/s,计算性能上限为526 TFLOPS。

H200 GPU:内存速度上限为3887 GB/s,计算性能上限为512 TFLOPS。

H800 GPU:内存速度上限为 1785 GB/s,计算性能上限为 331 TFLOPS。

本测试结果基于官方测试脚本。由于官方最优参数配置未知,数据可能未达到理论上限。

FlashMLA对主流推理框架的影响

FlashMLA的发布不仅吸引了开发者的目光,也引起了主流推理框架的重视。两大热门框架vLLM和SGLang都对FlashMLA做出了积极回应。

vLLM团队预计很快会实现集成FlashMLA。技术上,FlashMLA基于PagedAttention实现,与vLLM的技术栈高度兼容,集成后有望进一步提升vLLM的推理性能。

SGLang会继续用已经合并了的FlashInferMLA。根据他们的评测,FlashInferMLA的性能与FlashMLA基本相当。

文章来源于互联网:DeepSeek开源FlashMLA:Hopper GPU解码新标杆,测评大揭秘!

12
12 月
2025
12
12 月
2025
11
12 月
2025
11
12 月
2025
10
12 月
2025
09
12 月
2025
09
12 月
2025
08
12 月
2025
06
12 月
2025
04
12 月
2025
03
12 月
2025
30
11 月
2025
28
11 月
2025
27
11 月
2025
27
11 月
2025
最新提问
🎉🎉🎉AI问答功能上线喽!!
安装pytorch的时候提示拒绝访问
已经成功安装pytorch,但是import时提示"找不到指定的模块"
Pytorch安装后不能使用的问题
YOLO模型训练时提示报错
YOLO的安装使用报错问题
有哪些GPU云环境可以使用
公众号
滚动至顶部
0
希望看到您的想法,请您发表评论x