跳至内容
让AI知识触手可及
首页
AI知识
AI资讯
AI问答
Search
搜索
登录/注册
首页
»
继良品率低后,英伟达Blackwell又出过热问题,说好的明年初发货呢?
文章来源于互联网:
继良品率低后,英伟达Blackwell又出过热问题,说好的明年初发货呢?
发言人将「工程迭代」称为「正常且在意料之中」。
今年的的 GTC 大会,英伟达将 AI 芯片的标杆推向了难以想象的高度。
为了帮助世界构建更大、更智能的 AI,英伟达首先拿出了世界上最先进的 GPU—— Blackwell 系列。
Blackwell 拥有 2080 亿个晶体管,在同一颗芯片上集成了两个 GPU。其两块小芯片之间的互联速度高达 10TBps,彻底解决了内存瓶颈和缓存问题。
与前代产品 H100 相比,Blackwell 的性能提升同样令人瞩目,达到了 Hopper 的 30 倍。
以训练一个 1.8 万亿参数的 GPT 模型为例,如果使用 Hopper,需要 8000 个 GPU,消耗 15 兆瓦电力,训练 3 个月;而换成 Blackwell,仅需 2000 个 GPU,就能在同样的时间内完成,能耗只需 4 兆瓦,实现了性能和效率的双重突破。
Blackwell 的量产问世,无疑将为 AI 模型训练和人形机器人的发展注入强劲动力,对整个 AI 应用生态也将产生深远影响。
自 3 月份发布,6 月份宣布投产以来,Blackwell 最初定于 2024 年第二季度发货,全球科技公司都在疯狂求购。
但在原定的发货时间,传出了 Blackwell 因为良品率低,将推迟发货的消息。
当时,黄仁勋在 2025 财年第二季度财报电话会议上表示,设计上的问题都已修复,有望在第四季度实现量产。
现在,英伟达的客户又在担心一个新问题,当芯片连接到 Nvidia 自己的服务器机架时,会过热。
据 The Information 报道,英伟达 Blackwell GPU 在 72 核的服务器上暴露了过热隐患。这些服务器每个机架的功耗预计高达 120 千瓦,过热问题不仅限制了 GPU 的性能,还可能损坏组件。为此,英伟达不得不多次重新评估服务器机架的设计方案。
这引发了谷歌、Meta 和微软等大客户对能否按时在其数据中心部署 Blackwell 的担忧。
为此,英伟达已要求供应商对机架进行多项设计变更,进一步推迟了预期发货日期。该公司发言人将「工程迭代」描述为「正常且在意料之中」。
此前,由于 GPU 良率不高的问题,Blackwell 的量产计划就推迟了一次。
今年 8 月,有媒体称 Blackwell 存在设计缺陷。由于 Blackwell 是英伟达首个采用 MCM(多芯片封装)设计的 GPU,在同一个芯片上集成了两个 GPU。
这种「二合一」的创新,显然不能再通过传统方式来打造。Blackwell 的 B100 和 B200 GPU 两个型号使用台积电的 CoWoS-L 封装技术连接两个芯片,该技术依赖于配备局部硅互连(LSI)桥接器的 RDL 中介层,以实现约 10 TB/s 的数据传输速。
然而,由于 GPU 芯片、LSI 桥、RDL 中介层和主板基板之间的热膨胀特性不匹配,导致封装结构出现弯曲,从而引发系统故障。
对此,黄仁勋表示:「我们的 Blackwell 芯片存在设计缺陷,虽然可以正常使用,但该设计缺陷导致良率低下」。
更多详情可参见:
《100% 英伟达的错:黄仁勋确认 Blackwell 缺陷修复,明年初出货》
最终修订版的 Blackwell GPU 直至 10 月底才开始量产,这意味着英伟达最快也要等到明年 1 月底才能向客户交付这些处理器。
而 Blackwell 正在面临前所未有的需求。近期,黄仁勋在摩根士丹利举办的投资者会议上透露,Blackwell 已经全部售罄。摩根士丹利分析师 Joe Moore 指出,英伟达高管称,Blackwell GPU 产品的订单积压已达 12 个月。
AWS、CoreWeave、谷歌、Meta、微软和甲骨文等科技巨头,已经采购了英伟达及其制造合作伙伴台积电在未来四个季度内能生产的所有 Blackwell GPU。
这种旺盛的需求表明,尽管 AMD、英特尔以及各大云服务商正努力分得一杯羹,英伟达在 AI GPU 的领导地位还将进一步巩固并扩大。
作为人类历史上估值最高的股票,英伟达将于本周三公布收益。与 8 月份的情况相似,在类似的时间节点,又传出了有关下一代 Blackwell 芯片出问题的消息。
在英伟达承认 Blackwell 存在设计缺陷导致良品率低后,当时刚创下历史新高的英伟达股票收跌 2.81 %,又回落到了 140 美元以下。
这一次,英伟达的股价又会发生怎样的变化呢?
参考链接:
https://www.theinformation.com/articles/nvidia-customers-worry-about-snag-with-new-ai-chip-servers
https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers
文章来源于互联网:
继良品率低后,英伟达Blackwell又出过热问题,说好的明年初发货呢?
对话英诺王建明:机器人目前面临的核心问题是数据 | GAIR 2025
12
12 月
2025
IDCC 2025:全球进入算力效能竞争期,商汤大装置给出中国式解决方案
12
12 月
2025
IDC MarketScape:商汤科技位居中国AI咨询服务市场领导者类别
11
12 月
2025
金融智能体进入规模落地期 蚂蚁数科被评综合领导者
11
12 月
2025
铭凡 MINISFORUM 联合 AMD 带来两款 AI 旗舰产品
10
12 月
2025
仅有一位作者的论文,却补上了城市智能的「最后一公里」
09
12 月
2025
趋境科技与金航数码拓展人工智能合作场景,支持空天领域数字化建设
09
12 月
2025
探索机器人“无遥操”,ATEC2025科技精英赛在港收官
08
12 月
2025
戴尔科技集团 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案
06
12 月
2025
NTU S-Lab 团队探索可动 3D 新方向:结构、关节、纹理一次到位
04
12 月
2025
腾讯胡文博:引领 3D 视频世界模型新趋势丨GAIR 2025
03
12 月
2025
GAIR 2025 世界模型论坛:走向真实智能的起点
30
11 月
2025
BFM-Zero,让人形机器人不再依赖高质量动捕数据
28
11 月
2025
夸克AI眼镜发布两个系列六款单品
27
11 月
2025
这款应用爆火背后,AI下半场正从「聊天」变「办事」
27
11 月
2025
全部资讯
最新提问
我要提问
🎉🎉🎉AI问答功能上线喽!!
2024-11-30
Dongming
安装pytorch的时候提示拒绝访问
2024-11-30
7083
已经成功安装pytorch,但是import时提示"找不到指定的模块"
2024-11-30
7083
Pytorch安装后不能使用的问题
2024-11-30
7083
YOLO模型训练时提示报错
2024-11-30
7083
YOLO的安装使用报错问题
2024-11-30
7083
有哪些GPU云环境可以使用
2024-11-27
Dongming
No posts found
公众号
菜单
首页
AI知识
AI资讯
AI问答
滚动至顶部
wpDiscuz
0
0
希望看到您的想法,请您发表评论
x
(
)
x
|
回复
Insert