文章来源于互联网:AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零
Scale AI 等提出的新基准再次暴露了大语言模型的弱点。

-
论文标题:ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges -
论文地址:https://arxiv.org/pdf/2502.08859 -
榜单地址:https://scale.com/leaderboard/enigma_eval










文章来源于互联网:AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零
Scale AI 等提出的新基准再次暴露了大语言模型的弱点。










