文章来源于互联网:科研领域新成果:九章云极 DataCanvas 联合团队发布 R1 复现以及改进技术
近日,中国人民大学 STILL 项目团队、北京智源研究院团队联合九章云极 DataCanvas 公司在大模型慢思考推理技术上形成系列技术成果,初步复现类 R1 推理模型,完整开源了类 R1 类的实现细节以及训练技巧。进一步,创新性提出使用代码工具来增强模型推理性能,在 AIME 数学推理测试中超越 DeepSeek-R1 的模型性能。相关成果已经形成论文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》,在预印版论文网站 arXiv 上公开发表。
九章云极 DataCanvas 联合研究团队公布了复现 DeepSeek- R1 全参数微调开源方案,并发布了全新的强化学习训练模型 STILL-3-Tool-32B。这个方案完整开放了从模型训练到推理部署的全链路工程代码,同步公开实践验证过的技术经验与调优策略,为开发者提供可直接部署的工业化级大模型训练框架。研究成果显示,该模型在 AIME 2024 基准上取得了 81.70% 准确率(采样),超越了 DeepSeek-R1 满血版。该成果在 GitHub 社区中详细阐述,并公开了相关开源链接。
论文地址:https://arxiv.org/pdf/2503.04548
开源链接:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
STILL-3-Tool-32B 模型是九章云极 DataCanvas 联合团队在基于长链复杂推理模型训练框架上的又一次重要创新实践。该研究论文表明,在已接近性能巅峰的蒸馏模型上,通过该强化学习训练方法也可以大幅提升 AIME 2024 的准确率,这一研究结果将极大促进正在运行中的较大模型的回复长度和推理准确性。面对语言推理可能存在精准性不够的问题,STILL-3-Tool-32B 模型引入了外部工具来加强 AI 模型的复杂推理能力。在 AIME 2024 上取得 81.70% 准确率(采样),以 15.56% 的显著优势超越其基座训练模型,与 OpenAI o3-mini 持平,超越 o1 和 DeepSeek-R1 同场景表现。
自 DeepSeek-R1 技术报告公布后,开源模型仍然复现面临代码完整性缺失、超参数调试等共性难题,九章云极 DataCanvas 联合团队通过 AI 基础设施深度融合实现突破。研究同步开源了该模型在 DataCanvas Alaya NeW 智算操作系统上完成的全过程完整训练日志、奖励函数代码及容器化部署方案。研究结果公布,在 Alaya NeW 中采用 on-policy 学习策略是成功的关键因素,其将 DeepSeek 背后的基于规则的强化学习方法加以微调,充分探索了相关的超参数设置以及训练技巧
值得关注的是,DeepSeek 以及蒸馏模型在推理过程中无法调用外部代码工具,而这恰是复现的关键难点。研究结果显示,Alaya NeW 智算操作系统在开源工具链与基座模型适配、算法与算力协同、逻辑推理与多步决策等复杂任务框架方面表现出明显优势,有望推动 AI 技术的进一步发展。