跳至内容
让AI知识触手可及
首页
AI知识
AI资讯
AI问答
Search
搜索
登录/注册
首页
»
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
文章来源于互联网:
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
GPT-5 不出,Grok 已经赶上了。
就在谷歌与 OpenAI 互相抢新闻的同一天,马斯克旗下的 xAI 也没有闲着。
北京时间周三下午,xAI 正式发布了新一代 Grok 2 大模型。
第三方大模型基准组织 Chatbot Arena 也立即更新了 LMSYS 榜的成绩列表。Grok 2 的早期型号(sus-column-r)紧随 GPT-4o(0513 版)之后可以位列第四,表现优于 Claude 3.5 Sonnet 和 GPT-4-Turbo。
它在编码、复杂问题和数学方面表现出色。
马斯克不免自夸起来,「Grok 的推进速度像坐了火箭。」
注意,这只是早期版本的分数,Chatbot Arena 表示后续还会测试一下正式版。
马斯克表示,Grok-2 是具有最先进推理能力的先进语言模型。新一代包括两个版本:Grok-2 和 Grok-2 mini。两种模型现在都在 X 平台上向 Grok 用户发布。目前,X Premium 和 Premium+ 用户已经可以体验 Grok-2 和 Grok-2 mini 这两种模型。
相比此前的 Grok-1.5,Grok-2 的早期预览版实现了重大进步,在聊天、推理、代码等方面展示出了领先的能力。xAI 表示,Grok-2 和 Grok-2 mini 目前正在 X 上处于测试阶段,将在本月晚些时候通过企业 API 的方式提供。
新模型发布后不到半小时,已经有网友在晒使用效果了,他使用 Grok 2 mini 生成了一张「我与马斯克吃热狗」的图像。
再试试其他的生成一张华盛顿的画像。
也有人试了试 Grok 2 mini,生成一只飞猫。
还有人生成了特斯拉 Model Y,看起来挺像的?
Grok-2 性能大 PK
随着 xAI 将 Grok-2 的早期版本「sus-column-r」放入到 Chatbot Arena,我们看到了它与其他流行开闭源模型的性能比较。
就总体的 Elo 得分而言,Grok-2 的表现要优于 Claude 系列模型和大多版本的 GPT-4。当然,排在第一位的是 OpenAI 这几天刚放出的 GPT-4o(8 月 8 日版本)。
下图为 Grok-2 与其他流行模型的胜率(Win Rate)比较。
下图为 Grok 1.5 与 Grok 2 两个版本基于事实性的胜率比较。
xAI 采取这样的流程来对 Grok 2 模型进行评估,利用 AI Tutors 在各种任务中与模型真实互动。在每次互动过程中,Grok 2 都会向 AI Tutors 提供两个响应,然后根据指南中列出的特定标准选择最佳响应。
xAI 专注于在两个关键领域评估模型性能, 分别是指令遵循和提供准确、真实的信息。结果显示,Grok 2 在利用检索到的内容进行推理以及使用工具的能力方面有了显著的进步,比如正确地识别缺失信息、通过事件序列进行推理、丢弃不相关的帖子等。
基准测试成绩
xAI 通过一系列学术基准对 Grok-2 模型进行了评估,这些基准包括推理、阅读理解、数学、科学和编码。
Grok-2 和 Grok-2 mini 都比之前的 Grok-1.5 模型有了显著改进。在研究生水平的科学知识 (GPQA)、常识 (MMLU、MMLU-Pro) 和数学竞赛问题 (MATH) 等领域的表现可与其他前沿模型相媲美。
此外,Grok-2 在基于视觉的任务方面表现也很出色,在视觉数学推理 (MathVista) 和基于文档的问答 (DocVQA) 方面性能显著。
Grok 2 界面和功能「大变身」
过去几个月,xAI 一直不断地提升 x 平台上的 Grok 体验。现在,随着下一代 Grok 2 的推出,xAI 重新设计了界面,如下图所示。
当然,xAI 提供了一些新功能,比如 Conway《生命游戏》的简单实现。
再比如多模态理解能力(看图说话)。
其中,Grok-2 是 xAI 最先进的 AI 助手,拥有文本和视觉理解功能,并集成了来自 X 平台的实时信息,可通过 X 应用程序中的 Grok 选项卡访问。
Grok-2 mini 是一款小巧但功能强大的模型,在速度和答案质量之间取得了很好平衡。
与其前代产品相比,Grok-2 更直观、更可控、更灵活,适用于各种任务,无论你是在寻找答案、协作写作还是解决编码任务。
此外,xAI 还与初创公司
Black Forest Labs
展开合作,试验他们的 FLUX.1 模型,以扩展 Grok 在 X 上的功能。
本月晚些时候, xAI 还将通过新的企业 API 平台向开发人员发布 Grok-2 和 Grok-2 mini。即将推出的 API 建立在新的定制技术堆栈上,允许多区域推理部署,以实现全球低延迟访问。
当然,xAI 还提供了一些增强的安全功能,例如强制性多因素身份验证(例如使用 Yubikey、Apple TouchID 或 TOTP)。
可以看到,自 2023 年 11 月推出 Grok-1 以来,xAI 一直以惊人的速度推进该系列模型。很快,他们将发布具有多模态理解的预览版。xAI 之后的重点将是通过新的计算集群来提高模型的核心推理能力。
博客地址:https://x.ai/blog/grok-2
文章来源于互联网:
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
戴尔科技集团 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案
06
12 月
2025
NTU S-Lab 团队探索可动 3D 新方向:结构、关节、纹理一次到位
04
12 月
2025
腾讯胡文博:引领 3D 视频世界模型新趋势丨GAIR 2025
03
12 月
2025
GAIR 2025 世界模型论坛:走向真实智能的起点
30
11 月
2025
BFM-Zero,让人形机器人不再依赖高质量动捕数据
28
11 月
2025
夸克AI眼镜发布两个系列六款单品
27
11 月
2025
这款应用爆火背后,AI下半场正从「聊天」变「办事」
27
11 月
2025
实测完“灵光”,我意识到人类对 AI 助手的开发不足1%
27
11 月
2025
全球招募 | GDPS 2025 定档:开启「物理智能」元年,给AI发一张「物理世界准入证」
26
11 月
2025
优必选再中标2.64亿元订单,全年人形机器人订单达11 亿人民币。
25
11 月
2025
小米陈龙团队首作:统一具身与自动驾驶的开源模型
22
11 月
2025
趋境开源框架 KTransformers 成主流大模型首选,Qwen、Kimi、智谱 AI 推荐,单卡跑万亿模型
21
11 月
2025
Gemini 3 登场后,哈萨比斯要「改造」Google 全系产品
21
11 月
2025
AI外教一对一产品“斑马口语”上线,教育行业首个真生产业化落地的AI Agent
19
11 月
2025
对话顾嘉唯:AI正在从虚拟世界,开始进入物理世界
19
11 月
2025
全部资讯
最新提问
我要提问
🎉🎉🎉AI问答功能上线喽!!
2024-11-30
Dongming
安装pytorch的时候提示拒绝访问
2024-11-30
7083
已经成功安装pytorch,但是import时提示"找不到指定的模块"
2024-11-30
7083
Pytorch安装后不能使用的问题
2024-11-30
7083
YOLO模型训练时提示报错
2024-11-30
7083
YOLO的安装使用报错问题
2024-11-30
7083
有哪些GPU云环境可以使用
2024-11-27
Dongming
No posts found
公众号
菜单
首页
AI知识
AI资讯
AI问答
滚动至顶部
wpDiscuz
0
0
希望看到您的想法,请您发表评论
x
(
)
x
|
回复
Insert