文章来源于互联网:国产推理大模型决战2025考研数学,看看谁第一个上岸?
随着上个月 2025 研究生考试的结束,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。
业内曾有着这样一种共识:大语言模型在文字水平上的表现令人印象深刻,但说到数学就不甚令人满意了。去年一度火出圈的「9.9 与 9.11」比大小的问题,包括 GPT-4o 在内的很多大模型都翻车了,直到深度推理模型出现后才从根本上改善了这一状况。
OpenAI 发布的 o1 模型在涉及复杂和专业的数理问题方面表现让人印象深刻,大模型在经过一定时间仔细思忖后,回答问题的能力和准确度大幅提升,这种被称为推理侧 Scaling Law 的现象已经成为继续推动大模型能力提升的关键力量。在黄仁勋最新 CES 2025 的演讲中,他也把测试时(即推理)Scaling 形容为大模型发展的三条曲线之一。
可以看到,继 o1 之后,国内大模型厂商也陆续推出了自己的深度推理模型,并在某些任务上有亮眼的表现。数了一下时间轴大概是这样的:
-
2024 年 11 月 21 日,深度求索团队发布 DeepSeek-r1 模型; -
2024 年 11 月 28 日,阿里通义团队发布 QwQ 模型; -
2024 年 12 月 16 日,月之暗面团队发布 Kimi-k1 模型; -
2024 年 12 月 31 日,智谱 GLM 团队发布 GLM-Zero 模型; -
2025 年 1 月 6 日,昆仑万维发布 Skywork-o1 模型。
大家也许会好奇,这些深度推理模型的能力(尤其是数学推理能力)到底有多强,又是谁能拔得头筹呢?这时就需要一场公平的标准化考试了。
清华 SuperBench 大模型测评团队(以下简称测评团队)为了全面评估这些模型在数学推理方面的能力,结合 2025 年考研数学(一、二、三)的试题,专门对以上各家深度推理模型进行了严格的评测。同时,为了确保评测的全面性,参与评测的还包括各家的旗舰基础模型。
此次选择的 13 个模型具体如下:












文章来源于互联网:国产推理大模型决战2025考研数学,看看谁第一个上岸?
