文章来源于互联网:DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世
适用于常规 AI 模型和 MoE。











-
Hopper 架构的 GPU,必须支持 sm_90a; -
Python 3.8 或更高版本; -
CUDA 12.3 或更高版本,但为了获得最佳性能,DeepSeek 强烈推荐使用 12.8 或更高版本; -
PyTorch 2.1 或更高版本; -
CUTLASS 3.6 或更高版本(可通过 Git 子模块克隆)。
# Submodule must be clonedgit clone --recursive git@github.com:deepseek-ai/DeepGEMM.git# Make symbolic links for third-party (CUTLASS and CuTe) include directoriespython setup.py develop# Test JIT compilationpython tests/test_jit.py# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)python tests/test_core.py
python setup.py install
