高端GPU疯狂缺货,谁有机会挑战英伟达?

jh 9个月前 (08-16)

AI生产力的爆炸还在继续。

AI时代,但凡厂商涉及到AI相关业务,都或多或少分得这个万亿级市场的一杯羹。

但喧闹之下,真正能算得上“AI赢家”的厂商屈指可数。其中,手握核心算力的英伟达可谓一骑绝尘,在业务、营收等方面都遥遥领先于竞争对手。

受大模型和生成式AI需求暴增影响,英伟达借助着出色的GPU硬件疯狂吸金,慢慢打造起自己的“AI壁垒”。

不过垄断之下必有勇夫,在想象力无限的“钱景”面前,硅谷巨头和初创公司们显然不会甘心英伟达独吞市场。

有缺口,就有机会

英伟达能在AI行业率先领跑,靠的是黄仁勋敏锐的市场观察力

早在“AI寒冬”时,英伟达就开始逆势投资,全力押注AI,布局了“CPU+GPU+DPU”产品矩阵。因此,英伟达的AI壁垒其实早早就已经建好,不仅抢跑了AMD、英特尔等竞争者,同时也震慑了后来者。

随着AI浪潮的到来,英伟达的产品迅速抢占了市场,在“训练”和“推理”两大环节,英伟达GPU已经做到了一家独大,包括AWS、Azure、谷歌云、一众国内主流云厂商,以及微软、谷歌旗下的大模型产品,都极度依赖英伟达的高端GPU来训练。

一方面,英伟达的高端GPU产品足够优秀,支撑得起厂商们的AI算力需求;另一方面,以CUDA为代表的英伟达并行计算和编程平台是目前市面上能找到最好产品,AMD、英特尔都没有替代品。

最终,英伟达几乎成了AI芯片的唯一选择,独享市场也并不奇怪。

不过垄断之下,英伟达高端GPU逐渐成了一种稀有资源,尤其是最顶尖的H100显卡,只有少数科技巨头才有渠道购入,就连马斯克旗下AI初创公司xAI 都得排队才能购入。

据媒体报道,H100在今年8月的市场总需求可能在43.2万张左右,排期则到了2024年第一季度到第二季度。在瞬息万变的AI竞赛场,半年时间的窗口期足够一轮洗牌。

面对这样的缺口,英伟达的对手们自然不会错过这个机会。

同为GPU巨头的AMD,最初并没有将AI列为第一战略。比起英伟达,他们的AI产品更专注于传统路线,尽可能优化产生大量数据时的工作负载,以此实现性能的提升。

因此,虽然AMD的EPYC Milan处理器在数据中心有非常高的采购率,但并不适配AI训练,同时由于AMD的ROCM生态刚刚起步,并不适合一些AI场景,这就导致AMD的GPU产品虽然出色,但很少被科技公司采购。

不过,当下市场急需一个“平价版”的英伟达,AMD无疑是最好的选择。

就在今年6月,AMD推出MI300X,这款新芯片预计Q4开始出货,在英伟达GPU极度缺货的情况下,在HBM容量和带宽上疯狂堆料的AMD MI300X或许成为一款很好的替代品。

至于英特尔,虽然在GPU市场很难取得突破,但凭借多年来的“人脉关系”,英特尔在中国市场与合作伙伴推出了特供版深度学习加速器——Habana Gaudi 2

这款产品最大的特点就是在符合美国工业与安全局出口规定的前提下,性能没有缩水。英特尔声称,目前Gaudi 2比英伟达A100价格更有竞争力,且性能更高。

对于中国AI厂商来说,在H100、A100芯片无法供应中国市场的情况下,英特尔联合合作伙伴推动Gaudi 2 AI加速器在中国市场的布局,无疑会给整个市场带来变革,这是中国市场对于AI算力的强大需求所决定的。

不同路线层出不穷,初创企业看向差异化

大模型疯狂索取算力,除了消耗着GPU产品的性能,同时还吞噬着大量的能源。

根据斯坦福人工智能研究所(HAI)发布的《2023年人工智能指数报告》,OpenAI的GPT-3单次训练耗电量高达1287兆瓦时。有专家推算,这个耗电量相当于3000辆特斯拉,每辆跑满20万英里(32.2万公里)。而这还只是ChatGPT一个大模型的耗电量,其他大模型全部运作的耗电量,更是难以估量。

在庞大的功耗下,H100芯片成了AI厂商的一个“负担”,同时也为一些新兴的初创芯片厂商提供了利好消息。包括存算一体、Chiplet、HBM等解决方案纷纷被厂商挖掘出来,目的是实现AI芯片的降本增效。

例如在Chiplet赛道,加拿大AI芯片初创公司Tenstorrent就是目前比较亮眼的独角兽之一,他们在2021年吸引了传奇芯片专家Jim Keller作为公司总裁兼CTO,并在此后拿下多笔巨额融资。

据报道,他们计划以异构和Chiplet设计的形式来开发RISC-V和AI芯片,目前已经开发出基于12nm工艺的Grayskull和Wormhole两款芯片,FP8算力高达328TFlops,在进度上非常快。

而在高性能AI芯片方面,Tenstorrent计划于2024年推出可对标英伟达最新发布的GH200 Grace Hopper平台,其最大特点就是相比类似性能的GPU系统便宜5到10倍。

靠着完善的产品规划和技术骨干团队,Tenstorrent在最近一次是从现代汽车集团和三星的投资基金筹集到1亿美元用于产品开发,其估值也提升到14亿美元以上。

还有一些初创企业并没有直接从芯片角度出发,例如初创公司Modulal就是从英伟达垄断的AI软件领域入手,希望通过其软件为企业提供了另一种选择,使开发者可以更简单地在其他公司设计的芯片上训练和运行机器学习模型,包括英特尔、AMD的GPU以及谷歌的TPU等等。

这家公司的来头同样不小,其联合创始人兼首席执行官Chris Lattner在苹果公司任职期间,参与创建了Swift编程语言。而Modular的种子轮融资名单里包括了知名天使投资公司SV Angel。

除了前面提到的方向以外,硅谷还有不少初创企业从其他赛道入手,并与巨头抱团共建生态,希望借此抢下一些市场份额。

当然,不单是国外芯片企业大秀肌肉开始了芯片竞争,国内半导体公司也开始了对AI芯片的研发。包括摩尔线程、天数智芯、沐曦在内的多家国产GPU芯片都得到了金额较大的融资,产品研发进度也非常快。

写在最后

大模型时代,算力作为最重要的基础设施,目前已经成为一种稀缺资源。可以说,谁掌握了算力,就手握了竞争的资本。这其中,拥有GPU核心技术的英伟达更是提前建好了“AI壁垒”,让竞争者们羡慕不已。

不过AI市场非常大,同时半导体行业又具备复杂性,英伟达GPU在一卡难求的情况下,市场必然寻找替代品,这为后来者们提供了难得的机遇。

当然,英伟达的护城河足够深,并且保持着可持续竞争优势。除了H100以外,英伟达近期抛出新一代GH200 Grace Hopper超级芯片、AI Workbench、AI Enterprise 4.0,以及Hugging Face等重磅武器。既然数量供不上,那就以质换量。

当然,这些产品的门槛非常高,目前来看仍只是少数科技巨头才有机会采购。

随着赛道越来越激烈,英伟达丝毫没有松懈,AI生产力的爆炸还在继续。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到