文章来源于互联网:单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速
微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。


-
论文地址:https://arxiv.org/pdf/2407.02490 -
论文主页:https://hqjiang.com/minference.html -
论文标题:MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention









