文章来源于互联网:开源赛道太挤了!月之暗面开源新版Muon优化器
省一半算力跑出2倍效果,月之暗面开源优化器Muon,同预算下全面领先。

-
添加权重衰减:对扩展到更大模型至关重要。 -
一致的 RMS 更新:在模型更新上执行一致的均方根。


-
论文地址:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf -
代码地址:https://github.com/MoonshotAI/Moonlight -
模型地址:https://huggingface.co/moonshotai/Moonlight-16B-A3B













文章来源于互联网:开源赛道太挤了!月之暗面开源新版Muon优化器