英伟达高山仰止的优势,是如何建立起来的?中国芯片行业在这座大山面前,除了仰望,还有什么机会?
从上世纪末开始创业,到市值突破万亿美元,英伟达(NVIDIA)用了20多年的时间。如今的英伟达芯片,不仅成为人工智能大模型训练最好的加速器,更成为市场上可以抵押变现的硬通货。随着主流AI厂商都进入了“千亿参数时代”,英伟达的GPU成了AI“军备竞赛”上的必备武器。尽管A100的价格一路上涨,但市面上几乎“一卡难求”。
8月23日,英伟达公布其截至2023年7月31日的最新季度财报显示,当季公司营收创历史新高,达135.1亿美元,同比增
长101%;净利润达61.88亿美元,同比增长843%;其毛利率也达到惊人的70.1%。利润太高了,高到让人咋舌。在这一领域,英伟达确实没有对手。因为业绩的超预期表现,英伟达市值再创新高,达1.16万亿美元。财报发布后的盘后交易中,英伟达股价更是一度涨超10%,股价上涨直接破了500美元。
英伟达最大的优势,就是其GPU芯片因为在图形计算方面的性能优势,成为大模型训练和部署的核心部件。当算力已经成为一众云厂商发展大模型、争夺客户的战略级资源的时候,全球AI公司算力的比拼已经变成了有多少英伟达GPU芯片的比拼。国内百度、字节、阿里、腾讯等大型科技公司,也被媒体爆出向英伟达下了总计50亿美元的A800芯片订单。其中,只有10亿美元的货能赶在年内交付,另外八成订单也要等到2024年才能陆续交付。
美银证券半导体分析师维韦克 · 阿里亚甚至将英伟达的AI芯片,比作“硅谷的硬通货”。由英伟达领投的云初创公司CoreWeave近期宣布融资23亿美金,其给予投资机构的抵押物正是其拥有的英伟达GPU。
那么,英伟达高山仰止的优势,是如何建立起来的?中国芯片行业在这座大山面前,除了仰望,还有什么机会?
1993年,在AMD和LSI Logi打了几年工后,黄仁勋开始创业,专攻图形处理器,他给公司起名NVIDIA,起源于Invidia,即古希腊泰坦神Nemesis的罗马名字,是仇恨和嫉妒的化身。黄仁勋看重的是单词的前两个字母N和V,即next version(下一代),代表了他想要主导未来技术趋势的抱负。
在经历了两代产品NV1和NV2的失败后,NVIDIA靠1997年4月推出的第三代产品NV3即Riva 128站稳了脚跟,此后推出了一系列显示芯片把市面上所有的竞争对手打得找不着北,1999年推出的GeForce 256,更是号称世界上第一款GPU。开创了个人电脑业即时的图形显示标准。
在微软提出统一渲染架构之后,英伟达果断的把自己从前的GPU架构推倒重来。其GPU流处理器被进行了细致的分组,变成一个个小型流处理器且能单独运行,解决了流处理器此前被绑定无法独立运行而被迫闲置的问题。英伟达当时的竞争对手ATI,因为早期没有投入硬件架构变革,沿用过去的串行设计,最后成功被英伟达挤出显卡市场。
此后,依靠为微软Xbox和索尼PlayStation提供显示芯片,英伟达成为消费电子市场中芯片龙头之一。
2006年,英伟达推出了CUDA(Compute Unified Device Architecture)架构,这是一种GPU计算平台和编程模型。CUDA提供了一个简单且灵活的编程模型,包括核函数的调用、内存管理、线程同步等功能,使得开发人员能够更轻松地利用GPU的并行计算能力,开发高性能的通用计算应用程序。CUDA架构的推出,使得英伟达的GPU在多个领域得以应用,包括科学计算、数据分析、深度学习、虚拟现实等。这些领域对于高性能计算和并行处理的需求很高,英伟达的GPU提供了强大的计算能力和优化工具。通过与软件开发商、研究机构、学术界等众多合作伙伴建立紧密的合作关系,共同推动了CUDA生态系统的发展,并为开发者提供了更多的资源和支持,英伟达更进一步扩大了CUDA的影响力和应用范围。
2007年,英伟达在美国加州圣克拉拉市举办了第一届CUDA技术大会,当时CUDA已经初步建立了生态系统,包括围绕CUDA平台形成的一系列支持软件、工具和硬件设备等资源的集合。然而,这个时候的CUDA生态系统还不够完善,并且缺乏市场的广泛认可。
随着时间的推移,CUDA的生态系统逐渐发展壮大。NVIDIA积极与软件开发商、硬件制造商以及学术界合作,提供更多的支持和资源,也逐渐涌现出了许多基于CUDA的各种应用程序、库和工具。到了2010年左右,CUDA开始受到市场的真正认可。这归功于CUDA在高性能计算领域的卓越表现和广泛应用。越来越多的科研机构、大学和企业意识到CUDA的潜力,并开始使用CUDA进行加速计算。此外,NVIDIA持续改进和推出新的GPU产品,以满足不同领域的需求,也为CUDA赢得了更多的用户和市场份额。一位投资人说,CUDA在一段时间内看不到落地的场景,但在试错过程中它建立起了完整的生态,并在一股新风向袭来的时候,成功站上了风口。
2012 年,AI研究者发现了CUDA,他们发现,基于CUDA架构的大规模并行运算芯片Tesla,在人工智能、深度神经网络技术上有着天然的契合性,大大降低了训练神经网络等高算力模型的难度,此时提供算力基础设施的英伟达在多年的苦熬之后,终于迎来了胜利的曙光。在人工智能和深度学习应用中,英伟达的GPU专门设计的Tensor Cores能够加速矩阵运算,从而提高深度神经网络的训练和推理速度。这使得英伟达GPU成为许多机器学习和人工智能项目的首选。
2017 年虚拟货币价格飞涨,以太坊和比特币矿工大量使用英伟达图形芯片加入挖矿大军。为了加速挖矿,不少矿工同时使用上百张显卡,加上全天 24 小时连续运行导致电子元件寿命大幅缩减,全球显卡销量一时剧增。其旗舰产品卖得断了货。向加密货币矿工出售芯片,每季度赚得数亿美元。
从2016年到2018年9月,英伟达市值一路高歌猛涨,从140亿美元猛增到1750亿美元,成为新业界神话。New Street Research报告,自 2021 年以来,矿工购买 30 亿美元显卡。英伟达市值再次大涨,突破5千亿美元。与台积电一起成为业界唯二超过 5 千亿美元市值的半导体公司。
随着晶圆制程已经逼近原子量级,每18个月单位面积上的晶体管数量可以翻一番的“摩尔定律”已经走向失效,但是黄仁勋提出的GPU将推动AI性能实现逐年翻倍的“黄氏定律”,依然稳步前行。NVIDIA GTC 2020中国线上大会上,NVIDIA首席科学家Bill Dally说,“如果我们真的想提高计算机性能,黄氏定律就是一项重要指标,且在可预见的未来都将一直适用。”
由于英伟达每一代新的GPU架构都提供了更高的性能和更丰富的功能,使得开发者能够开发出更复杂、更高效的应用程序。强大的生态系统,CUDA架构的开放性和工具支持吸引了众多开发者和合作伙伴的参与,使得CUDA成为一个广泛应用的GPU计算平台。这种生态系统的发展又进一步促进了英伟达GPU的创新和市场份额的增长,形成了良性循环。
英特尔一位资深芯片专家介绍,过去那么多年,NVIDIA的GPU把生态建立完整以后,已经占领了百分之七八十的市场,无论是开发者还是使用者,都已经习惯了英伟达产品上的使用,从绝对性能和每瓦性能来讲,确实是行业最领先的,加上它是fabless的架构,他们只需要做产品和设计,然后台积电提供先进的制程去实现,英伟达在产品迭代的过程中,又非常高效。
国内一家GPU独角兽的相关负责人介绍,首先是硬件上,英伟达的最大优势在于芯片设计的相关经验以及与台积电等供应链企业的深度合作,特别是在芯片的通用性设计上具有很大的优势。而供应链上的优势,则是国内厂商很难去匹敌的,比如英伟达拥有足够的技术实力与台积电开展先进制程上的联合研发,从而以4nm制程制造最新的产品,领先国内企业一代,包括HBM3、PCIE Gen5等最新的内存、接口等技术,英伟达都能率先获取和使用,并获得更高的议价权。
其次是软件生态,英伟达的CUDA生态是英伟达对标国内厂商的最大优势。目前CUDA有400万开发者,基本垄断了GPU的软件生态。下游厂商的开发者基本都使用CUDA进行应用开发,这也是英伟达硬件产品能够垄断市场的关键之一。软件生态的建立和发展没有捷径,只有通过大量时间、投入和用户反馈的积累才能做到,英伟达的CUDA生态做了20多年,已经形成了壁垒。
身为独立显卡起家的公司,英伟达先是搭上AI东风,又广泛用于“挖矿”,再然后智能车产业崛起,车用芯片业务也迅速生长。这让英伟达避开大部分公司都烦恼的行业周期:游戏业不景气时,可以靠AI产业需求补上,AI虚火褪去时,可用汽车业务继续;甚至疫情期间,更是在家上班的受益者。
随着人工智能大模型的热度持续升温,英伟达的GPU供应量难以满足市场需求。Analytics India Magazine 的一份报告称,OpenAI 仅运行其人工智能服务ChatGPT每天就要花费约70万美元。据悉,英伟达的订单量已经排满到2024年,其中性能最强的AI训练H100 GPU更是备受追捧。H100 GPU的成本为3320美元,而英伟达以25000至30000美元的价格出售这些GPU,今年计划销售量超过55万块。
2023年7月底,瑞穗分析师Vijay Rakesh在最新的报告中指出,英伟达在人工智能芯片市场的优势是“统治级的”,未来也将占据相当大的市场份额。Rakesh指出,英伟达今年的营收可能达到250亿至300亿美元,预计该公司今年将出货约10万台人工智能产品,平均售价为25万至30万美元。虽然随着时间推移,英伟达可能会面临比现在更激烈的竞争,但预计该公司扔将占据“相当大”的市场份额,平均售价可能会降至20万美元左右,但那时可能会出货150万台芯片产品,销售额可能大幅提升,AI相关收入将达3000亿美元。
今年迄今为止,英伟达股价飙升超200%,市场突破万亿美元大关。Rakesh认为,股价还能继续走高,将目标价从400美元上调至530美元,并表示新目标是较为保守。Rakesh认为,人工智能给英伟达股价带来的助推力可能超乎想象,人工智能的增量价值约为20-300美元/股,这表明英伟达的潜在价值约为486- 760美元/股。
中国芯片公司如何赶超?
国内某GPU独角兽相关负责人表示,首先在硬件上,中国公司由于没有芯片设计上的历史包袱,因此可以大胆使用更高效的芯片架构,所以在芯片设计层面已经能够实现一定程度上的赶超,这也是国内厂商能够生存的关键。但是在供应链上,国内厂商由于中美关系的影响,在获取国际供应链最新技术上存在很大的隐患,甚至有些厂商已经受到了来自美国的制裁和阻碍。这个方面就需要国内整个产业链的共同提升。
其次在软件上,软件生态的建设需要时间和用户的积累,因此国内需要更多鼓励下游应用厂商使用国产芯片,从而在软件生态上给到芯片公司更多的反馈,形成“用户使用-用户反馈-迭代-更多用户使用”的滚雪球式发展。只有这样才能追赶上英伟达在软件生态层面的水平。在理想的情况下,这种发展也需要5-10年时间才能看到成效。
《IT时报》报道,在今年的世界人工智能大会上,一家国产GPU厂商销售人员就透露,目前国内第一批大模型厂商使用的基本都是英伟达A100、A800的芯片,因为英伟达构建了完善的CUDA生态。“如果你用惯了这个生态,”该销售人员说,“贸然换一个生态,意味着你的学习成本、试错成本、调试成本都会增加,自然没人会想要换了”。
目前,国内AI芯片第一梯队包括海光、华为和寒武纪等厂商,第二梯队包括燧原、昆仑芯、天数等公司,对他们来说,不仅需要接近CUDA兼容问题,生态建设更是不得不面对的难题。8月24日-27日在深圳召开的2023年亚布力论坛夏季高峰会上。科大讯飞创始人、董事长刘庆峰表示,中国在人工智能算法方面没有问题,但算力似乎始终被英伟达按住。“我特别高兴告诉大家,华为的GPU能力已经跟英伟达A100一样了。”
今年3月,《科技部办公厅关于开展国家新一代人工智能公共算力开放创新平台申报工作的通知》明确表示,公共算力平台应使用自主研发的人工智能计算芯片,并优先采用自主研发的系统软件。对于混合部署的公共算力平台,基于自主研发芯片的算力标称值占全部系统算力标称值的比值应不低于 60%。公共算力平台应优先使用国产开发框架,使用率应不低于60%。
今年6月2日,《临港新片区加快构建算力产业生态行动方案》发布,其中提出:到2025年,临港新片区将形成以智算算力为主、基础算力和超算算力协同的多元算力供给体系,算力产业总体规模突破100亿元。
同一天,中国电信临港公共智算服务平台暨国产GPU联合创新基地启动。首批国产GPU厂商华为、燧原、天数、寒武纪、沐曦等宣布入驻。该基地将面向开发者或开发企业在模型算法算力的需求,搭建异构国产算力开发环境。同时,基地还将与国产GPU厂家一起提升国产GPU芯片的性能和兼容性。
相关芯片专家指出,对国内的厂商来讲,性能方面基本上难以达到英伟达产品的性能,也拿不到台积电最先进的制程,而且GPU的设计里面的核心的IP也不是自己拥有的,这基本上来讲实际上很难,更难的事情在于,现在国内的这些GPU想在这个领域发展,就需要扩大API兼容,就是为了方便的去移植英伟达的生态,代码的移植层面要简单,但是代码移植过来了,不等于性能就能够达到最优,所以说需要的工作还是蛮多。
他认为,当然这中间的机会在于,因为美国有大量的限制,英伟达的产品到了中国以后,实际上不是一个完整性能的产品,而美国的限制卡在连接带宽上。大模型训练的时候,需要多卡训练,因此卡与卡之间的连接就是一个致命伤。从这个角度来讲。再往前演进一两年,如果说美国不改变现在策略,这或许是国产GPU的机会,虽然性能上达不到最优,但是没有带宽上的限制,实际上的表现不见得会比海外产品的差。
在核心技术的原创能力上,生态环境上,国内厂商还是要差一些。但是国内最大的特点就是说没有一个厂商能够统治的这个市场,更像是一个充分竞争的市场,应用场景是比较多,把一个先进技术快速的进行迭代和应用,这种再创造能力是要比海外强的。“从这个角度来讲,国内还是充满着很多的想象空间,不能说我们没有最顶尖的硬件产品和最顶尖的研发的原创能力,这个市场我们就会落后。”这位专家表示,要善于把自己的长板做好,然后,克服在短板上的一些劣势。
本文转自于 财新网