权威中文大模型10月榜单出炉，商汤“日日新”金牌！

首页 » 权威中文大模型10月榜单出炉，商汤“日日新”金牌！

文章来源于互联网:权威中文大模型10月榜单出炉，商汤“日日新”金牌！

模型表现好，金牌少不了。

刚刚，中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》：

商汤日日新·商量大模型（SenseChat5.5）凭借出色的能力表现，总得分位列国内大模型第一梯队，获得金牌。

本次SuperCLUE10月报告覆盖23个国内模型，聚焦语言大模型的通用能力评估，分为三大维度：除了考察“文科”、“理科”基础能力外，还有考察模型更高阶能力的“Hard”附加任务，总共2900+道题：

【理科任务】分为计算、逻辑推理、代码、工具使用测评集；

【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集；

【Hard任务】分为精确指令遵循测评集，复杂任务高阶推理测评集。

商汤SenseChat5.5在多项评测任务中均位列第一梯队，文科中语言理解、安全等维度表现突出，也是理科中逻辑推理、代码学科的“尖子生”。

值得注意的是，在【Hard】的两项任务——精准指令遵循和高阶推理中，商汤SenseChat5.5是唯一两项任务均位于国内第一梯队的大模型，体现了模型优秀的复杂推理智能。

SuperCLUE本次报告显示，国内大模型的能力与ChatGPT-4o-latest表现接近，o1-preview则在复杂任务中更为突出。未来，商汤将继续坚持基础大模型的持续研发与投入，不断提升真正高阶推理及“慢思考”能力。

文章来源于互联网:权威中文大模型10月榜单出炉，商汤“日日新”金牌！

AI 太烧钱！微软选择「倒戈」DeepSeek

6 月

2026

Claude Code 修了几个小 bug，却揭开了 Agent 落地的大麻烦

6 月

2026

LiblibAI 母公司完成近 3 亿美元融资：AI 应用层开始进入「收入说话」的阶段

6 月

2026

超越 SONIC ！人形机器人通用小脑迎来 GPT 时刻

6 月

2026

7 年 Google 老兵写出爆款工具被开除，转头官方发同款？OpenClaw 之父下场抢人

6 月

2026

马斯克悄悄改了战场：Grok Build 0.2.60 剑指 Agent Runtime

6 月

2026

这次是阿里！中国的大模型团队快被 Anthropic 告完了

6 月

2026

行业首个！大晓「晓途」开启机器狗开放场景7×24小时自主运营新模式

6 月

2026

Fable 5 刚被封杀，OpenRouter 用「多模型协作」搞出了「平替天团」

6 月

2026

别让 AI 碰生产环境！Reddit 火爆血泪贴，痛诉 AI 如何一刀切断数据库生命线

6 月

2026

算电协同进入Agent时代：商汤大装置SenseSynergy获信通院能力认证

6 月

2026

独家丨华为天才少年王裕鑫创业，首月完成数千万级首轮融资

6 月

2026

CVPR 2026完美落幕！D4RT封神最佳论文、牛津VGG两连冠，中国本科生泰坦显卡逆袭引爆全网

6 月

2026

SoulAgent 即将亮相北京智源大会，探索个人智能体在知识服务场景中的应用

6 月

2026

从诺奖项目到生成式药物设计，Latent Labs 创始人 Simon Kohl：AI 正在让生物学进入「可编程时代」 | CVPR 2026

6 月

2026

全部资讯

最新提问

公众号