跳至内容
让AI知识触手可及
首页
AI知识
AI资讯
AI问答
Search
搜索
登录/注册
首页
»
仅仅一天,Gemini就夺回了GPT-4o拿走的头名
文章来源于互联网:
仅仅一天,Gemini就夺回了GPT-4o拿走的头名
太卷了,大模型迭代开始以「周」为单位了吗?
一周前,谷歌的 Gemini-Exp-1114 模型取代 GPT-4o,坐上了 Arena 榜单的头把交椅。
对于苦苦追赶 OpenAI 几个月的谷歌来说,这次在基准测试上的胜利十分振奋人心。
可惜振奋的时间不长:昨天,GPT-4o 一个更新,把第一名的位置抢回来了。
奥特曼庆功的话音刚落,Gemini-Exp-1121 杀出来,又把第一名抢走了。
谷歌工程师还顺带嘲讽了一波:
位次的变化实在太快,让人有点恍惚了。难道接下来,大模型迭代要以「周」为单位了吗?
狂卷基准测试,真有意义吗?
有人猜测,莫非这就是谷歌逐渐过渡到 Gemini 2 的发布方式?但这种可能性不大,因为最近的两个模型版本都还达不到「次世代」的水准。再加上又有传言,各家在训练阶段的 Scaling Law 上都遇到了一些瓶颈,提升模型能力的希望更多转向了后训练阶段。我们最终看到的下一代大模型,或许和目前的技术路线大不相同。
目前,Gemini-Exp-1114 和 Gemini-Exp-1121 在 Google AI Studio 上均为可用状态:
从官方发布的介绍来看,Gemini-Exp-1114 的亮点主要在于质量改进,而最新的 Gemini-Exp-1121 重点改进了编码、推理和视觉能力。
这场争夺战的出现,却引出了另外一个角度的话题:当前的人工智能基准测试方法可能大大简化了模型评估。
就比如一周前,当研究人员控制了响应格式和长度等表面因素时,Gemini-Exp-1114 的表现下降到第四位,因为传统指标可能会夸大感知能力。
这种差异揭示了人工智能评估中的一个根本问题:模型可以通过优化表面特征而不是展示推理或可靠性的真正改进来获得高分。对定量基准的关注引发了一场争夺更高分数的竞赛,行业对排行榜的依赖也会催生一些不良激励方式,而这些都无关于人工智能的真正进步。
各个厂商针对特定测试场景优化模型,同时可能忽略安全性、可靠性和实用性等更广泛的问题。这种方法产生的 AI 系统擅长完成狭隘的预定任务,但在处理细微的现实世界互动时却举步维艰。
比如有人就发现在 LiveBench 上,一周后更新的 Gemini-Exp-1121 版本,在数学和推理能力上反而比不上 Gemini-Exp-1114,令人疑惑。
厂商之间为获得更高的基准分数而展开的竞争并不会停止,但真正的竞争可能在于如何开发全新的框架来评估和确保人工智能系统的安全性和可靠性。
OpenAI 考虑用浏览器挑战谷歌霸主地位
谷歌和 OpenAI 不仅在大模型领域有点针锋相对,在浏览器方面,OpenAI 正在加紧追赶。
当谷歌 Chrome 浏览器深陷反垄断之际,OpenAI 出手了。
据《Information》周四报道,OpenAI 最近考虑开发一款可与其 ChatGPT 聊天机器人集成的 web 浏览器,并推出了 NLWeb(Natural Language Web)搜索技术,以增强对旅游、食品、房地产和零售等行业的搜索。
报道还称,OpenAI 已与 Conde Nast、Redfin、Eventbrite 和 Priceline 等网站和应用程序开发商讨论过这款搜索产品。
据知情人士透漏,为了达到这一目标,OpenAI 聘请了谷歌 Chrome 团队创始成员 Ben Goodger 以及其他前 Chrome 关键开发人员进行研发,展现了 OpenAI 对开发浏览器浓厚的兴趣。
领英资料显示,此前 Ben Goodger 是 Chrome 团队的创始成员,今年 6 月加入 OpenAI
这一系列举措可能会让 OpenAI 与占据浏览器和搜索市场最大份额的谷歌展开竞争。此前,OpenAI 已经通过 SearchGPT 进入搜索市场。
报道还称,OpenAI 讨论了为三星制造的设备提供人工智能功能,而三星是谷歌的主要商业合作伙伴。
此前,OpenAI 已经与苹果建立了合作伙伴关系,Apple Intelligence 功能现已使用 OpenAI 的技术。
不过,目前尚不清楚 OpenAI 何时会推出浏览器,《Information》报道称,OpenAI 距离推出浏览器还差得很远。
如今看来,谷歌不仅面临来自 OpenAI 的压力,在美国司法部认为谷歌应该出售其 Chrome 浏览器以结束其在在线搜索领域的垄断地位后,谷歌在浏览器市场的主导地位变得岌岌可危。
如果 OpenAI 成功推出新的浏览器,它将成为谷歌最大的竞争对手。
吃瓜网友们也是纷纷看好 OpenAI,表示道「OpenAI 是非常有潜力开发出一款非常棒的浏览器的,因为他们现在已经有了搜索功能。」
不过也有网友并不看好:「就我个人而言,浏览器对我已经没什么用了,因为我现在只需向聊天机器人提问,就能立即得到答案,而且无需广告或尝试多个页面。」
还有人用一个故事表达了自己的观点:「Nicholas Negroponte 曾经讨论过超级计算机的应用,并讲述了一个关于他们展示科学计算器应用的故事。所有的投资者都非常生气 ——『我们花费了数百万美元,而你们所做的只是重新创建了计算器?我们已经有计算器了!』如果 OpenAI 开发一款浏览器,我认为可能会发生同样的事情。」
我们暂且不管 OpenAI 何时推出浏览器,单就最近几天这两家机构在模型更新速度上,就已经相当激烈了,OpenAI 正面刚谷歌还会继续。
参考链接:
https://www.theinformation.com/articles/openai-considers-taking-on-google-with-browser
https://x.com/btibor91/status/1859716045004734739
文章来源于互联网:
仅仅一天,Gemini就夺回了GPT-4o拿走的头名
北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026
19
3 月
2026
计算所程学旗团队:随机剪枝 AI 攻击策略,让对抗样本更具「通用攻击力」丨CVPR 2026
18
3 月
2026
BeingBeyond正式发布 U1,全球首款Real DexUMI,无本体数据采集进入灵巧手时代
18
3 月
2026
计算所 x 上交大论文:只用双人数据,也能生成多人动画丨CVPR 2026
18
3 月
2026
从“养虾热”到实体交互:元萝卜推动OpenClaw走向真实世界
17
3 月
2026
独家 | 华为前高管刘武龙创立具身公司贝塔无限,已完成近亿元种子轮融资
12
3 月
2026
擎羽科技完成天使轮融资:宇树天使投资方领投,押注仿生柔性机器人
04
3 月
2026
北大林宙辰团队:从最优传输角度训练时序预测模型 丨ICLR 2026
26
2 月
2026
甲骨文「暴涨与暴跌」背后:万字解密AI豪赌困局
25
2 月
2026
清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026
24
2 月
2026
北大林宙辰团队论文:从数据中自适应学习时序预测损失丨ICLR 2026
18
2 月
2026
腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式
18
2 月
2026
全国首批,商汤大装置SenseCore获工信部软件供应链安全能力评估优秀级认证
17
2 月
2026
首个多模态记忆湖MemoryLake发布:AI基础设施迈入记忆驱动时代
09
2 月
2026
清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026
09
2 月
2026
全部资讯
最新提问
我要提问
🎉🎉🎉AI问答功能上线喽!!
2024-11-30
Dongming
安装pytorch的时候提示拒绝访问
2024-11-30
7083
已经成功安装pytorch,但是import时提示"找不到指定的模块"
2024-11-30
7083
Pytorch安装后不能使用的问题
2024-11-30
7083
YOLO模型训练时提示报错
2024-11-30
7083
YOLO的安装使用报错问题
2024-11-30
7083
有哪些GPU云环境可以使用
2024-11-27
Dongming
No posts found
公众号
菜单
首页
AI知识
AI资讯
AI问答
滚动至顶部