关闭广告

刚刚,全球首个GB300巨兽救场!一年烧光70亿,OpenAI内斗GPU惨烈

新智元2639人阅读


新智元报道

编辑:桃子

【新智元导读】为了争夺有限的GPU,OpenAI内部一度打得不可开交。2024年总算力投入70亿美元,但算力需求依旧是无底洞。恰恰,微软发布了全球首台GB300超算,专供OpenAI让万亿LLM数天训完。

过去一年,OpenAI在算力上斥资70亿美元。

其中,大模型研发占了最大头——50亿美元,而推理计算仅用了20亿美元。


可见,LLM训练正吞噬无尽的算力,这也是OpenAI最近一直在大举扩展超算建设与合作的重要原因。

采访中,OpenAI总裁Greg Brockman坦言,「内部如何分配GPU,简直就是一场痛苦与煎熬」。

OpenAI各个团队争抢GPU,那叫一个激烈。最头疼的是,如何去合理分配。


如今,甲骨文、英伟达、AMD等芯片巨头/云服务巨头,纷纷与OpenAI联结,能够解其燃眉之急。

这不,就连曾经最大的「金主爸爸」微软也上阵了。

纳德拉官宣,全球首个配备4600+ GB300的超算率先上线,专攻OpenAI。预计,未来将扩展到十万块GPU。


英伟达称,这一算力巨兽,可以让OpenAI不用数周,仅在数天内训练万亿参数模型。


全球首台GB300超算

数天训出万亿LLM

就在昨天,微软Azure宣布成功交付了,全球首个生产级超大规模AI集群。

它搭载了超4600个GB300 NVL72,配备通过下一代InfiniBand网络互联的Blackwell Ultra GPU。


今年早些时候,微软曾推出GB200 v6虚拟机(VM),通过大规模GB200 NVL2集群,已在OpenAI内部训练部署得到应用。

这一次,GB300 v6虚拟机再次树立了行业标杆。

该系统基于机架级设计,每个机架包含18个虚拟机,共计72个GPU:

  • 72个Blackwell Ultra GPU,搭配36个Grace CPU

  • 通过下一代Quantum-X800 InfiniBand,实现每GPU 800 Gb/s的跨机架横向扩展带宽(2x GB200 NVL72)

  • 机架内130 TB/s的NVLink带宽

  • 37TB高速内存

  • 高达1,440 PFLOPS的FP4 Tensor Core性能


全新设计,为大规模AI超算而生

为打造出最强超算,微软对计算、内存、网络、数据中心、散热和供电等技术栈的每一层,都进行了重新设计。

机架层:低延迟高吞吐

通过NVLink和NVSwitch,GB300 v6在机架层面实现了高达130TB/s的机架内数据传输速率,连接了总计37TB的高速内存,由此消除了内存和带宽瓶颈。

在大模型和长上下文场景下,推理吞吐量大幅提升,为AI智能体和多模态AI带来前所未有的响应速度和扩展性。

同时,Azure部署了采用当今最快网络 fabric——Quantum-X800 Gbp/s InfiniBand——的全连接胖树(fat-tree)无阻塞架构,能够跨机架扩展数万个GPU。

此外,Azure散热系统采用独立的「散热器单元」和「设施级冷却方案」。

在为GB300 NVL72这类高密度、高性能集群保持热稳定性的同时,最大限度地减少了水资源消耗。

软件层:全面优化

不仅如此,微软为存储、编排和调度重构的软件栈也经过全面优化,能够在超算规模上充分利用计算、网络、存储和数据中心基础设施,提供前所未有的高性能和高效率。


OpenAI GPU争夺战

一场「痛苦与煎熬」

在OpenAI内部,正上演一场GPU激烈争夺战。


上周四,Greg在一期「Matthew Berman」播客节目中,自曝管理算力资源分配的过程,令人揪心且筋疲力尽。

这太难了,你总能看到各种绝妙的点子,然后又有人带着另一个绝妙的点子来找你,你心想,这个也太棒了。

在OpenAI内部,将算力资源主要分配给「研究」和「应用产品」两个方向。


为了应对算力分配的挑战,OpenAI建立了一套相对清晰的资源分配机制:

  • 高层决策:由奥特曼和Fidji Simo组成的领导团队,决定研究团队与应用团队之间的总体算力划分;

  • 研究团队内部协调:首席科学家和研究负责人,决定研究团队资源分配;

  • 运营层:由Kevin Park领导的小型内部团队负责GPU的具体分配和调动。


OpenAI复杂算力关系网络图

Greg提到,当一个项目接近尾声时,Kevin会重新分配硬件资源,以支持新启动的项目。

算力驱动着整个团队的生产力,此事干系重大。

大家对此都非常在意。人们对「我能否分到算力」这件事所投入的精力与情感强度远超想象。

一直以来,OpenAI多次公开表达其对算力永不满足的需求。

OpenAI首席产品官Kevin Weil曾表示,「我们每次拿到新的 GPU,它们都会被立刻投入使用」。

OpenAI对算力的需求逻辑很简单——

GPU的数量直接决定了AI应用的能力上限。获得的GPU越多,所有人就能使用越多的AI。


不仅OpenAI,整个行业科技巨头也在加码算力投入。小扎透露,Meta正将「人均算力」打造为核心竞争优势。


上个月,奥特曼称,OpenAI正在推出「算力密集型服务」。

当我们以当前模型的成本,将海量算力投入到有趣的新想法上时,能创造出怎样的可能性?

这场算力争夺战中,谁手握最多的算力,将决定谁在AI竞赛中脱颖而出。

参考资料:

https://x.com/satyanadella/status/1976322455288545343

https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-for-openai-workloads/

https://www.businessinsider.com/openai-president-allocate-gpu-compute-internally-greg-brockman-2025-10

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普还嘴硬:莫迪保证过不买俄罗斯石油了

澎湃新闻 浏览 10204

男子家中冰箱门关不上灵机一动求助AI 差点花了冤枉钱

潇湘晨报 浏览 6757

笑不活了!颜丙燕谈小20岁男友,没想到评论区句句皆是梗

温柔娱公子 浏览 2492

当反向过年走红 留在北京的网约车司机"狠狠捡漏"

第一财经资讯 浏览 4379

他陪了林青霞21年,眼睁睁看着她嫁给别人

二妹扯娱 浏览 2416

2026“乐购新春”盛宴开启,这三只浙股或迎最强“红包”行情

览富财经网 浏览 1531

汇聚超千项前沿成果,第八届长三角科技成果交易博览会开幕

蓝鲸新闻 浏览 2541

无名花丨诗一首

正经社 浏览 1921

杭州女子洗完澡一抬头 发现窗外停着一架无人机

极目新闻 浏览 10917

3人救落水女子4人均遇难 救援人员:水情复杂还有旋涡

极目新闻 浏览 2438

记者:拓王之战转播源取自现场大屏,所以直播视角混乱+回放过多

懂球帝 浏览 2380

公益行,中国足协“女足进校园”活动走进贵州省毕节市织金县

懂球帝 浏览 2268

英伟达CEO黄仁勋:“上帝级AI”还很遥远,但世界仍需向前发展

IT之家 浏览 1688

中方代表当场质问日方:你们从来没有真正地认罪悔过

环球网资讯 浏览 5838

坐劳斯莱斯里,偶遇粤B88888,网友:有比这更狠的宾利吗?

总李谈车 浏览 2542

断崖领先,罗塞尼尔执教白堡同期使用U21球员时间五大联赛第1

懂球帝 浏览 1814

以方袭击后 美副总统表态:加沙停火协议仍在维持

国际在线 浏览 2384

卡纳瓦罗:我会继续努力学习,看看以后是否有机会执教意大利

懂球帝 浏览 1896

终于在广州最舒服的季节和你们见面啦

黎贝卡的异想世界 浏览 1945

被指住宿环境差 广东一高校回应:没那么夸张 是误会

极目新闻 浏览 11029

决战星期四:懂球帝6-3战胜超越足球俱乐部

懂球帝 浏览 2220
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1