文章来源于互联网:MM-Eureka:极少数据实现多模态推理的R1-Zero时刻


-
论文标题:MM-EUREKA:EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING -
代码地址:https://github.com/ModalMinds/MM-EUREKA -
技术报告:https://arxiv.org/pdf/2503.07365 -
模型地址:https://huggingface.co/FanqingM/MM-Eureka-Zero-38B https://huggingface.co/FanqingM/MM-Eureka-8B -
数据集地址:https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset

-
极简的 RL 设计足以获得出色效果。在 instruct 模型上实验时,添加 KL 散度会限制模型探索,导致无法观测到 response length 的提高。

-
数据选择对于稳定 RL 训练很重要!基于难度的数据过滤策略对 RL 训练稳定性至关重要。在 8B-instruct 模型上进行 RL 训练时,若不进行数据过滤,训练过程极其不稳定。

-
模型在 RL 训练中展现类似 DeepSeek-R1 的 aha-moment,特别是模型不仅学会反思和回溯,还学会重新审视图像中的关键信息,我们认为这是 Visual aha-moment 的关键特征。

-
无论在 Instruct 还是 Pretrained Model 上,我们均在极简 RL 设计以及数据筛选策略下实现了稳定的 Accuracy Reward 提升和 Response Length 提升。

-
在 Instruct 模型上,几乎全部使用开源数据(50K),便在所有多模态数学推理基准上取得稳定提升。相比其他后训练策略,比如 MPO(1M 数据)和 CoT SFT(12M 数据),我们发现简单的 rule-based RL 具备极强的数据高效性,使用几十分之一的数据,平均性能超过 MPO,与 CoT SFT 相当。

-
在 Pretrained 模型上进一步挖掘 RL 潜力,仅需 8K 多模态数学推理数据,即可在奥林匹克数学测试集(部分)和 K12 数学推理测试集上,超过使用 16.3M 数据进行 SFT 的指令模型。在 MathVerse 上,两种模型表现也相似。我们仅使用了指令模型数据量的 0.05%,凸显了强化学习的巨大潜力!




文章来源于互联网:MM-Eureka:极少数据实现多模态推理的R1-Zero时刻