文章来源于互联网:一文看懂Mamba,Transformer最强竞争者
Mamba 虽好,但发展尚早。
-
论文标题:A Survey of Mamba -
论文地址:https://arxiv.org/pdf/2408.01129
-
Mamba-360: Survey of state space models as transformer alternative for long sequence modelling: Methods, applications, and challenges. arXiv:2404.16112
-
State space model for new-generation network alternative to transformers: A survey. arXiv:2404.09516
-
Vision Mamba: A Comprehensive Survey and Taxonomy. arXiv:2405.04404
-
A survey on vision mamba: Models, applications and challenges. arXiv:2404.18861
-
A survey on visual mamba. arXiv:2404.15956
-
离散化
-
卷积计算
-
集成方法:将 Mamba 块与其它模型集成到一起,实现效果与效率的平衡; -
替换方法:用 Mamba 块替换其它模型框架中的主要层; -
修改方法:修改经典 Mamba 块内的组件。
-
展平式扫描方法:以展平的视角看待 token 序列,并基于此处理模型输入; -
立体式扫描方法:跨维度、通道或尺度扫描模型输入,这又可进一步分为三类:分层扫描、时空扫描、混合扫描。
-
如何开发和改进基于 Mamba 的基础模型; -
如何充分实现硬件感知型计算,以尽可能利用 GPU 和 TPU 等硬件,提升模型效率; -
如何提升 Mamba 模型的可信度,这需要安全和稳健性、公平性、可解释性以及隐私方面的进一步研究; -
如何将 Transformer 领域的新技术用于 Mamba,如参数高效型微调、灾难性遗忘缓解、检索增强式生成(RAG)。
文章来源于互联网:一文看懂Mamba,Transformer最强竞争者









