文章来源于互联网:刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科
这是阶跃星辰 Step 系列模型家族的首个推理模型。


-
Scaling 强化学习:从模仿学习到强化学习,从人类偏好到环境反馈,阶跃星辰坚持 Scaling 强化训练,以强化学习为模型迭代的核心训练阶段。 -
Scaling 数据质量:数据质量是重中之重。在确保数据质量的前提下,阶跃星辰持续扩大数据分布与规模,为强化学习训练提供坚实保障。 -
Scaling Test-Time Compute:坚定执行 Training-Time Scaling 的同时,亦兼顾 Test-Time Scaling。在测试阶段,阶跃星辰发现,System 2 范式能让 Step Reasoner mini 在极复杂任务推理上达到 50,000 规模的思考 token,进而实现深度思考。 -
Scaling 模型大小:这是最经典的 Scaling 方式。阶跃星辰表示,坚持模型大小 Scaling 仍然是 System-2 的核心,已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。











文章来源于互联网:刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科