在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

首页 » 在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

文章来源于互联网:在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

大模型格局又变了？

刚刚，国内 AI 领域传来一则重要消息。

头部大模型创业公司阶跃星辰，凭借万亿参数大语言模型 Step-2，在业内权威大模型基准 LiveBench AI 上获得了第五名的好成绩，成为了前十名之内唯一的国产大模型。

排在阶跃星辰 Step-2 身前的，只剩下 OpenAI 和 Anthropic 两家公司。

榜单地址：https://livebench.ai/#

LiveBench 是当前生成式 AI 领域最权威、客观的模型能力评测榜单之一。它是由图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 联合 Abacus.AI、纽约大学等机构推出的，今年六月才首次上线。

它旨在消除现有 LLM 基准的局限性，被称作是「世界上第一个无法被操纵的大语言模型基准测试」。

LiveBench 提出了一种创新的基准测试方法，其中包含 6 大类 18 项任务。

为了避免大模型「作弊」，LiveBench 每月发布新问题，并根据最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介设计问题，以限制潜在的数据污染。每个问题都有可验证的、客观的基本真实答案，这样就可以在不使用 LLM 评审员的情况下，对难题进行准确的自动评分。

通过定期更新的问题集和客观的自动化评分方法，LiveBench 提供了一个公平、准确的评估平台，还同时推动了 LLM 的持续改进和社区参与。

此次杀入榜单前十的 step-2-16k-202411 模型的「Global Average」得分位列第五，已经非常接近第三名和第四名的 claude-3-5-sonnet-20240620 和 o1-mini-2024-09-12。

值得注意的是，在这次提交的成绩中，Step-2 的指令跟随（IF Average）得分全榜排名第一，展示了对语言生成细节的强大控制力。具体来说，该任务是对《卫报》最近的新文章进行转述、简化、概括或编写故事，但须遵守一项或多项指令，例如字数限制或在答辩中纳入特定元素。

不断进化的 Step-2 万亿参数大模型

自从最初的预览版发布以来，Step-2 一直在经历快速的技术迭代，迅速缩短与国际最顶级大模型的差距。

今年 3 月，阶跃星辰发布了 Step-2 语言大模型预览版，这是国内首个由创业公司发布的万亿参数模型。WAIC 2024 期间，阶跃星辰发布了 Step-2 万亿参数语言大模型正式版，在数理逻辑、编程、中文知识、英文知识、指令跟随等方面的体感都非常接近全球顶尖模型。

细看下来，Step-2 万亿参数语言大模型有两大亮点：采用 MoE 架构，万亿参数。

训练 MoE 模型主要有两种方式：基于已有模型通过 upcycle（向上复用）开始训练，或者从头开始训练。upcycle 方式对算力的需求低、训练效率高，但上限低（比如基于拷贝复制得到的 MoE 模型容易造成专家同质化严重）。如果选择从头开始训练 MoE 模型，虽然训练难度高，但能获得更高的模型上限。

阶跃星辰团队在设计 Step-2 MoE 架构时选择完全自主研发从头开始训练，通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计，让 Step-2 中的每个「专家模型」都得到充分训练，不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。

此外，从头训练这样一个万亿参数模型对于系统团队是很大的考验。在 Step-2 训练过程中，阶跃星辰系统团队突破了 6D 并行、极致显存管理、完全自动化运维等关键技术，成功完成了 Step-2 的每一次升级。

基于 Scaling Law，在模型参数达到万亿规模之后，数学、编程等涉及推理的能力都会显著提升。这也最终推动了 Step-2 今天能够取得媲美 OpenAI o1、Claude 3.5 Sonnet 等模型的好成绩。

不断进化的 Step-2 万亿参数语言大模型，已经接入了阶跃星辰 C 端智能助手「跃问」，在跃问 App 和跃问网页端（https://yuewen.cn）都可以使用。

阶跃星辰的大模型矩阵打造之路

相比国内大模型领域的几家知名公司，阶跃星辰可谓是后来者。它由微软前全球副总裁姜大昕创办，于去年 4 月成立，今年 3 月才开始崭露头角。