刚刚，阶跃星辰发布Step R-mini！推理模型从此不再文理偏科

首页 » 刚刚，阶跃星辰发布Step R-mini！推理模型从此不再文理偏科

文章来源于互联网:刚刚，阶跃星辰发布Step R-mini！推理模型从此不再文理偏科

这是阶跃星辰 Step 系列模型家族的首个推理模型。

类似 OpenAI o1 的推理模型在国内终于卷起来了。

刚刚，国产大模型「六小虎」成员阶跃星辰发布了最新一代模型 ——Step Reasoner mini（简称「Step R-mini」）。这是阶跃星辰 Step 系列模型家族的首个推理模型。

体验地址：https://yuewen.cn

新模型擅长主动进行规划、尝试和反思，能通过慢思考和反复验证的逻辑机制，为用户提供准确可靠的回复。

而且，它既擅长通过超长推理能力，解决逻辑推理、代码和数学等复杂问题，也能兼顾文学创作等通用领域。或者按阶跃星辰自己的说法是「文理兼修」。

根据阶跃星辰公布的基准测试数据，Step R-mini 在 AIME 2024 和 Math500 这两个数学基准上均达到了 SOTA 水平，其中在 Math500 上更是比 o1-mini 还多 2 分。Step Reasoner mini 写代码的能力也很不错：在 LiveCodeBench 代码任务上超过了 o1-preview。

这一切是怎么做到的呢？机器之心从阶跃星辰相关人士了解到，新模型的「RL」含量很高，因此泛化性比较好。此外，他们还在数据质量、测试时计算、模型大小等多个方面进行了 scaling，再次验证了 Scaling Law 的有效性。

除了语言推理模型，他们也在打造能够进行多模态推理的视觉推理模型。而且相关人士强调说，这个多模态推理模型「是真的在视觉领域的推理」，即在图上进行推理，「而不仅仅是看着图却只在文字领域的推理」。

看来，阶跃星辰在自己的路线图上又往前迈了一步。

Step Reasoner mini 是如何炼成的？

根据阶跃星辰的介绍，Step R-mini 的设计与开发遵循了当前主流的推理模型开发范式。具体来说，它通过在推理阶段增加计算量，并结合思维链等技术，实现了「慢思考」。该系统能够根据任务的复杂性进行主动规划、尝试和反思，从而通过反复验证的逻辑机制，提供准确且可靠的反馈。

阶跃星辰表示，Step Reasoner mini 最大的亮点之一是实现了「文理兼修」。具体来说，Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题，还能富有创意地完成文学内容创作和日常聊天的任务。这一切是通过大规模的强化学习训练，并使用 On-Policy（同策略）强化学习算法来实现的。

此外，模型推理能力的提升也离不开阶跃星辰对 Scaling Law 原则的坚持。这包括以下几点：

Scaling 强化学习：从模仿学习到强化学习，从人类偏好到环境反馈，阶跃星辰坚持 Scaling 强化训练，以强化学习为模型迭代的核心训练阶段。
Scaling 数据质量：数据质量是重中之重。在确保数据质量的前提下，阶跃星辰持续扩大数据分布与规模，为强化学习训练提供坚实保障。
Scaling Test-Time Compute：坚定执行 Training-Time Scaling 的同时，亦兼顾 Test-Time Scaling。在测试阶段，阶跃星辰发现，System 2 范式能让 Step Reasoner mini 在极复杂任务推理上达到 50,000 规模的思考 token，进而实现深度思考。
Scaling 模型大小：这是最经典的 Scaling 方式。阶跃星辰表示，坚持模型大小 Scaling 仍然是 System-2 的核心，已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。

一手实测效果如何？

既然 Step Reasoner mini 宣称「文理兼修」，我们首先就用一个文理融合的题目来考校它一番：《梦游天姥吟留别》中，一个数与其倍数在同一句的是哪一句？问题不难，但这既需要 AI 记得并理解古诗词，还需要它懂得基本的算术。虽然很多人认为答案应该是「天台四万八千丈，对此欲倒东南倾。」但是其实四万八千是一个单独的数，这一句中也没有其倍数，因此这句并不算。而 Step Reasoner mini 也在推理思考中确认了这一点，并最终找到了正确答案：「千岩万转路不定」。

下面来看一道 2024 年的高考数学题：

可以看到，Step Reasoner mini 进行了一番思考后得到了正确答案。同样可以看到，该模型在第一轮思考得到答案之后会再执行两轮思考，以验证答案的正确性。实测中我们发现，如果第一轮和第二轮的答案不一致，Step Reasoner mini 还会持续进行多轮思考，直到得到正确答案。

接下来上一道逻辑推理题：

可以看到，Step Reasoner mini 系统地整理了题目中几个人的关系，并将最终答案以非常清晰的形式呈现了出来。

单纯的「文科」任务呢？比如如果要求模型霸气地翻译「I’m not in danger,I’m the danger.」它会怎么处理？结果发现，Step Reasoner mini 经过多次尝试，最终找到了一个相当霸气的译法：「我非但无险，我就是那险途。」更有意思的是，它还在思考过程中引经据典，参考了《黑暗骑士》中的类似台词。