跳至内容
让AI知识触手可及
首页
AI知识
AI资讯
AI问答
Search
搜索
登录/注册
首页
»
在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一
文章来源于互联网:
在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一
大模型格局又变了?
刚刚,国内 AI 领域传来一则重要消息。
头部大模型创业公司阶跃星辰,凭借万亿参数大语言模型 Step-2,
在业内权威大模型基准 LiveBench AI 上获得了第五名的好成绩,成为了前十名之内唯一的国产大模型。
排在阶跃星辰 Step-2 身前的,只剩下 OpenAI 和 Anthropic 两家公司。
榜单地址:https://livebench.ai/#
LiveBench 是当前生成式 AI 领域最权威、客观的模型能力评测榜单之一。它是由图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 联合 Abacus.AI、纽约大学等机构推出的,今年六月才首次上线。
它旨在消除现有 LLM 基准的局限性,被称作是「世界上第一个无法被操纵的大语言模型基准测试」。
LiveBench 提出了一种创新的基准测试方法,其中包含 6 大类 18 项任务。
为了避免大模型「作弊」,LiveBench 每月发布新问题,并根据最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介设计问题,以限制潜在的数据污染。每个问题都有可验证的、客观的基本真实答案,这样就可以在不使用 LLM 评审员的情况下,对难题进行准确的自动评分。
通过定期更新的问题集和客观的自动化评分方法,LiveBench 提供了一个公平、准确的评估平台,还同时推动了 LLM 的持续改进和社区参与。
此次杀入榜单前十的 step-2-16k-202411 模型的「Global Average」得分位列第五,已经非常接近第三名和第四名的 claude-3-5-sonnet-20240620 和 o1-mini-2024-09-12。
值得注意的是,在这次提交的成绩中,
Step-2 的指令跟随(IF Average)得分全榜排名第一,展示了对语言生成细节的强大控制力。
具体来说,该任务是对《卫报》最近的新文章进行转述、简化、概括或编写故事,但须遵守一项或多项指令,例如字数限制或在答辩中纳入特定元素。
不断进化的 Step-2 万亿参数大模型
自从最初的预览版发布以来,Step-2 一直在经历快速的技术迭代,迅速缩短与国际最顶级大模型的差距。
今年 3 月,阶跃星辰发布了 Step-2 语言大模型预览版,这是国内首个由创业公司发布的万亿参数模型。WAIC 2024 期间,阶跃星辰发布了 Step-2 万亿参数语言大模型正式版,在数理逻辑、编程、中文知识、英文知识、指令跟随等方面的体感都非常接近全球顶尖模型。
细看下来,Step-2 万亿参数语言大模型有两大亮点:采用 MoE 架构,万亿参数。
训练 MoE 模型主要有两种方式:基于已有模型通过 upcycle(向上复用)开始训练,或者从头开始训练。upcycle 方式对算力的需求低、训练效率高,但上限低(比如基于拷贝复制得到的 MoE 模型容易造成专家同质化严重)。如果选择从头开始训练 MoE 模型,虽然训练难度高,但能获得更高的模型上限。
阶跃星辰团队在设计 Step-2 MoE 架构时选择完全自主研发从头开始训练,通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计,让 Step-2 中的每个「专家模型」都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。
此外,从头训练这样一个万亿参数模型对于系统团队是很大的考验。在 Step-2 训练过程中,阶跃星辰系统团队突破了 6D 并行、极致显存管理、完全自动化运维等关键技术,成功完成了 Step-2 的每一次升级。
基于 Scaling Law,在模型参数达到万亿规模之后,数学、编程等涉及推理的能力都会显著提升。这也最终推动了 Step-2 今天能够取得媲美 OpenAI o1、Claude 3.5 Sonnet 等模型的好成绩。
不断进化的 Step-2 万亿参数语言大模型,已经接入了阶跃星辰 C 端智能助手「跃问」,在跃问 App 和跃问网页端(https://yuewen.cn)都可以使用。
阶跃星辰的大模型矩阵打造之路
相比国内大模型领域的几家知名公司,阶跃星辰可谓是后来者。它由微软前全球副总裁姜大昕创办,于去年 4 月成立,今年 3 月才开始崭露头角。
阶跃星辰创始人、CEO 姜大昕,曾任职微软全球副总裁、微软亚洲互联网工程院首席科学家。
但这家公司却在短短几个月时间站稳了国内 AI 创业公司的第一梯队,并在一年内快速发布了包括万亿 MoE 语言大模型 Step-2、多模态理解大模型 Step-1.5V、图像生成模型 Step-1X 在内的 Step 系列模型 “全家桶”。
从 AGI 技术路线上看,阶跃星辰的选择是:单模态 – 多模态 – 统一多模态理解和生成 – 世界模型 – 通用人工智能(AGI)。
在快速迭代模型的同时,这家公司也将模型接入了两款 C 端产品智能生活助手跃问和 AI 开放世界冒泡鸭。目前,阶跃星辰已经完成了自身的大模型 + 产品矩阵,呈现出强势崛起的姿态。
文章来源于互联网:
在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一
港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策
25
5 月
2026
CVPR 2026 视频模型趋势梳理:不止生成下一帧,更要理解下一步
25
5 月
2026
CVPR 2026 自动驾驶与协作智能梳理:模型正在走向可控真实世界
25
5 月
2026
一封律师函引发的GitHub风暴:拓竹为何惹毛了全球极客?
25
5 月
2026
代码驱动的视觉感知:为什么说「看得懂代码」才是大模型攻克理科题的真正钥匙 |CVPR 2026
25
5 月
2026
“声智融合、智启未来”全场景语音AI技术与产业发展战略研讨会在北京大学成功召开,开启语音交互的未来生活方式
24
5 月
2026
贝塔无限连续完成种子轮、种子+轮数亿元融资,以系统工程重构消费级具身智能
24
5 月
2026
智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速
24
5 月
2026
万字长谈丨同济工智院华先胜:工程智能,是 AI 的「成人礼」
24
5 月
2026
复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026
24
5 月
2026
万字长谈丨同济工智院华先胜:工程智能,是 AI 的「成人礼」
24
5 月
2026
阿里云为什么「重构自己」?
24
5 月
2026
DeepSeek组建Harness团队,非「超能力者」不要?中国AI开启「做产品」的关键一跳
24
5 月
2026
Anthropic 花 3 亿美金买下 API「修路工」,打响连接层暗战
24
5 月
2026
谷歌掀桌,一口气甩出16个AI王炸
24
5 月
2026
全部资讯
最新提问
我要提问
🎉🎉🎉AI问答功能上线喽!!
2024-11-30
Dongming
安装pytorch的时候提示拒绝访问
2024-11-30
7083
已经成功安装pytorch,但是import时提示"找不到指定的模块"
2024-11-30
7083
Pytorch安装后不能使用的问题
2024-11-30
7083
YOLO模型训练时提示报错
2024-11-30
7083
YOLO的安装使用报错问题
2024-11-30
7083
有哪些GPU云环境可以使用
2024-11-27
Dongming
No posts found
公众号
菜单
首页
AI知识
AI资讯
AI问答
滚动至顶部