文章来源于互联网:Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力
昨天,AI 圈可以说非常热闹。中午,马斯克 xAI 发布了地表最强旗舰大模型 Grok-3;下午,DeepSeek 梁文锋亲自挂名的论文公开了全新注意力架构 NSA。
这下子,OpenAI 坐不住了,推出并开源了一个真实的、用于评估 AI 大模型编码性能的全新基准 SWE-Lancer。该基准包含了来自全球性自由职业平台 Upwork 的 1400 多个自由软件工程任务,在现实世界中总价值达到了 100 万美元。
这意味着,如果大模型能够全部完成这些任务,则可以像人类一样获得百万美元报酬。






-
论文标题:SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? -
论文地址:https://arxiv.org/pdf/2502.12115 -
项目地址:https://github.com/openai/SWELancer-Benchmark


-
IC 任务通过端到端测试评估,这些测试由专业软件工程师编写,模拟真实世界的应用行为。 -
管理任务通过与原始工程经理的选择对比来评估。



