文章来源于互联网:Jurgen、曼宁等大佬新作:MoE重塑6年前的Universal Transformer,高效升级

-
论文标题:MoEUT: Mixture-of-Experts Universal Transformers -
论文地址:https://arxiv.org/pdf/2405.16039 -
代码地址:https://github.com/robertcsordas/moeut
和
,其中 e ∈{1,…,N_E} 是专家索引。



和
。输出 y ∈ R^d_model 计算如下:







