文章来源于互联网:DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页

-
论文标题:Humanity’s Last Exam -
论文地址:https://arxiv.org/pdf/2501.14249 -
项目地址:https://lastexam.ai








-
问题应该准确、明确、可解且不可搜索,确保模型不能依赖记忆或简单的检索方法。 -
所有提交内容必须是原创的,或者是基于已发表信息的非平凡合成版本,但也会接受未发表的研究。 -
问题通常需要研究生水平的专业知识或高度特定主题的测试知识(例如,精确的历史细节、琐事、当地习俗),并且有领域专家接受的具体、明确的答案。 -
当 LLM 能提供正确答案但推理有误时,希望作者能修改问题参数,例如答案选项的数量,以阻止假正例。 -
要求明晰的英语和精确的技术术语,并在必要时支持 LATEX 标注。 -
答案要简短,并且对于精确匹配的问题,答案要容易验证,以支持自动评分。 -
禁止开放式问题、主观解释题和与大规模杀伤性武器有关的内容。 -
每个问题都应附有详细的解答以验证准确性。




