英伟达在AI芯片上的垄断护城河，应该不如台积电在先进制程上的深厚？AIGC技术的爆发式增长，台积电受益的确定性可能... - 雪球

作者：forcode

发布于:2023-02-23 11:28

Android

转发：53

回复：77

喜欢：28

英伟达在AI芯片上的垄断护城河，应该不如台积电在先进制程上的深厚？AIGC技术的爆发式增长，台积电受益的确定性可能更强。希望年中美国进入衰退后，台积电能跌到70以下。

／从下游来看，受益于ChatGPT走红，英伟达客户对于AI芯片的需求快速飙升。据悉，OpenAI已采用约2.5万颗英伟达GPU来满足其当前的服务器需求，且规模持续扩增中。业内预计微软、谷歌等硅谷大厂也将同步加大向英伟达的采购力度。
AMD同样也是受益于ChatGPT的爆火，近日接到了不少客户的CPU、GPU急单，并向台积电扩大了拉货力道；苹果同样也扩大了其AI芯片的下单规模。
资料显示，ChatGPT的技术底座是“大型语言模型”，其大模型GPT经历了三次迭代，GPT、GPT-2和GPT-3的参数量从1.17亿增加到1750亿，预训练数据量从5GB增加到45TB。最新的GPT-3.5在训练中使用了微软专门建设的AI计算系统，由1万个V100 GPU组成的高性能网络集群，总算力消耗约3640PF-days。
庞大的算力要求推动了AI芯片需求激增。中金公司表示，未来大模型趋势下，AI芯片市场成长可期，在ChatGPT应用大规模商用初期，AI芯片行业有望创造20亿美元左右市场空间。

精彩讨论

枯叶先生2023-02-24 06:27

作为一个半导体行业老兵，随便说两句，象配方、温度、压力、操作速度、干燥时间等等工艺参数还真不是壁垒，核心还是在特定设备，不同设备的良品率差别很大。举个例子，20年前上海一家新厂从安森美挖了一批人，开始用和安森美同样的设备，良率很快达到很高，因为主要参数全都可以复制，但后来为了降本，从新加坡进了两台设备，同样的材料，人员，参数，十来个工程师做了几十组DOE，良率始终无法达到原来的良率，后来分析下来是设备稳定性的问题。因此，个人认为参数是一个影响因素，但没有想象的那么大。所谓的操作工规模效应，熟练度那更是偏题了，半导体设备自动化程度远超大家的想象。

forcode2023-02-23 20:34

张忠谋的多个演讲中都提到过台积电的学习曲线优势，后来者要超过很难，除非出现革命性技术，或者台积电自己犯大错，我这样理解：

学习曲线优势跟规模直接相关，同一代最先进制程，最先拿到最多订单的芯片代工厂，工人最熟练，熟能生巧，自然效率最高。

你自己去杀一只鸡，可能从烧开水、动刀到去毛、清理内脏、切块等，没有个把小时搞不定。菜市场天天杀鸡的土鸡土鸭店老板十分钟给你搞定。唯手熟尔！

张忠谋反复强调，台积电最大的创新不是技术创新，而是商业模式创新，他认为商业模式创新比技术创新更值钱，经常举星巴克商业模式创新的例子。阿里巴巴和腾讯这种公司最初的成功，其实主要不是因为技术上有什么了不起的突破，淘宝网和QQ客户端并没有用到门槛极高的新技术，而是靠商业模式创新，没有重大技术创新的情况下做到了万亿级别。美团、拼多多等其实也是如此。

台积电的商业模式创新，核心是改变了芯片产业的客户，原来把芯片卖给电脑公司，创新为卖给其他芯片设计公司，比如高通、英伟达、AMD等，台积电只做代工，不做芯片设计，跟自己的客户完全没有竞争，相互配合去跟Intel和三星这种idm公司厮杀，台积电这种纯代工企业，才有可能彻底获得芯片设计公司的信任，Intel和三星做代工，信任问题始终是根本掣肘，苹果、英伟达、AMD等不大可能把最先进的芯片设计方案拿给Intel或三星去代工，Intel和三星只靠自家的订单量，远远没法跟台积电比订单规模，其生产车间设备的产能利用率、工人的熟练程度、内部专业化分工细化程度、材料连续供应数量质量、产品良率等等，都会落后，学习曲线就造成了台积电的直接成本更低、人均产值更大、出货速度更快、良率领先、毛利率更高，再加上大量订单带来的规模效应，分摊到每个芯片上的研发等固定成本也要小得多，所以，台积电能够投入到每一代制程上的研发经费非常充足，保证技术领先，在竞争对手没追上来时，就可以定高价，并且采用加速折旧法，等竞争对手新制程良率上来，台积电的生产线已经差不多折旧完毕，它的折旧成本比对手低一大截，研发成本因为规模效应也低得多，直接成本因为学习曲线也更低，良率还更高，就可以对成熟制程大幅度降价打压竞争对手，同时，台积电更先进的制程又准备投产了，所以你看Intel和三星被打得越来越力不从心，这两家芯片制程的落后具有必然性，迟早的问题。

只要台积电自己不犯大错，或者出现革命性芯片技术，后来者很难超越……

据说台积电一家的净利润，占了整个芯片产业最大比例，具体我没去验证过这个说法，相当于苹果公司在智能手机产业的利润份额，可见它的行业地位和定价权。

实际上，台积电开始的芯片代工模式，极大地促进了整个芯片产业乃至IT互联网产业的进步，因为它极大地降低了芯片行业的进入门槛，几十几百个人的小公司，都有可能设计出自己的芯片方案，交给代工厂生产。这在80年代之前是不可想象的。

坐在车里手机写的，比较啰嗦……

forcode2023-02-23 12:57

我就想，如何吃到这一波aigc大爆发的时代红利，直觉这是一个万亿美元级别的技术突破，虽然达不到技术革命、开创一系列全新产业的地步，但肯定是一种“通用技术”，将来会渗透到各行各业，取代大量人力、大幅度提高劳动生产率。

我自己去年底花了1000多买域名主机，搞了个网站，结果想法验证不可行，我没有能力自己下场直接干，只能投资相关公司分享收益了。

确定性最强的是哪一家？微软和Google都看不懂，小的创业公司更难说，确定性最强的就是英伟达和台积电，只要搞aigc，就绕不开这两家，但以我目前的阅读来看，台积电的护城河很深，目前又处在硅周期底部，价格回调了一些，相对没那么贵了，值得好好阅读研究。最大的风险确实是地缘政治风险。

forcode2023-02-23 11:52

台积电目前天下无敌，三星难以望其项背，英特尔更是被甩太远，台积电相比三星和英特尔的优势是商业模式优势，苹果高通这样的芯片设计公司，不放心把最先进的芯片设计方案交给三星这种IDM公司（竞争对手）代工，那Idm厂的规模效应就很难超过台积电，只要台积电自己不犯大错，很难被超越。

英伟达据说根基已经在慢慢被侵蚀，还刚开始。

英伟达CUDA垄断地位难保：PyTorch不断拆塔，OpenAI已在偷家
网页链接

／过去，虽然各大AI开发框架之间打得火热，但更底层的并行计算架构CUDA可算独霸一方。

但时过境迁，在AI框架的角逐中，PyTorch最终赢过此前领跑的TensorFlow，地位暂时稳了，然后就开始搞事情。

近些年PyTorch在拓展支持更多GPU，即将发布的PyTorch2.0首个稳定版也会对其他各家GPU和加速器支持进行完善，包括AMD、英特尔、特斯拉、谷歌、亚马逊、微软、Meta等等。

也就是说，英伟达GPU不再是那个唯一了

不过这背后其实也还有CUDA自身的问题。

内存墙是个问题
前面提到，CUDA崛起与机器学习浪潮彼此促进，共赢生长，但有个现象值得关注：

近些年，领头羊英伟达硬件的FLOPS不断提高，但其内存提升却十分有限。以2018年训练BERT的V100为例，作为最先进GPU，其在FLOPS上增长一个数量级，但内存增加并不多。

图片

△ 图源：semianalysis
在实际AI模型训练中，随着模型越来越大，内存需求也越来越大。

比如百度和Meta，在部署生产推荐网络时，需要数十TB内存来存储海量的embedding table。

放训练及推理中，大量时间实际上并未花在矩阵乘法计算上，而是在等待数据到达计算资源。

那为什么不搞更多内存？

简而言之，钞能力不足。

一般来说，内存系统根据数据使用需求，遵照从“又近又快”到“又慢又便宜”的结构安排资源。通常，最近的共享内存池在同一块芯片上，一般由SRAM构成。

在机器学习中，一些ASIC试图用一个巨大的SRAM来保存模型权重，这种方法遇到动辄100B+的模型权重就不够了。毕竟，即便是价值约500万美元的晶圆级芯片，也只有40GB的SRAM空间。

放英伟达的GPU上，内存就更小了：A100仅40MB，下一代的H100是50MB，要按量产产品价格算，对于一块芯片每GB的SRAM内存成本高达100美元。

账还没算完。目前来说，片上SRAM成本并没随摩尔定律工艺提升而大幅降低，若采用台积电下一代3nm制程工艺，同样的1GB，反而成本更高。

相比SRAM，DRAM倒是成本低很多，但延迟高一个数量级，且2012年来DRAM的成本也几乎没有明显压降。

随着AI继续向前发展，对内存的需求，还会增加，内存墙问题就是这么诞生的。

目前DRAM已占服务器总成本的50%。比如英伟达2016年的P100，比起最新的H100，FB16性能提升46倍，但内存容量只增加了5倍。

△ NVIDIA H100 Tensor Core GPU
另一个问题也与内存有关，即带宽。

计算过程中，增加内存带宽是通过并行性获得的，为此，英伟达使用了HBM内存（High Bandwidth Memor），这是一种3D堆叠的DRAM层组成的结构，封装更贵，让经费朴实的使用者们只能干瞪眼。

前面提到，PyTorch的一大优势在于：Eager模式让AI训练推理更灵活易用。但其内存带宽需求量也十分肥硕。

算子融合，即解决上述问题的主要方法。其要义在于“融合”，不将每个中间计算结果写入内存，而是一次传递，计算多个函数，这样就将内存读写量变少。

要落地“算子融合”，要编写自定义CUDA内核，要用到C++语言。

这时CUDA的劣势就显现出来了：比起写Python脚本，编写CUDA之于很多人真是难太多了……

相比下，PyTorch 2.0工具就能大幅降低这个门槛。其内置英伟达和外部库，无需专门学习CUDA，直接用PyTorch就能增加运算符，对炼丹师们来说，自然友好很多。

当然，这也导致PyTorch在近些年大量增加运算符，一度超过2000个（手动狗头）。

2022年末，刚发布的升级款PyTorch2.0更是大举发力，瞄准编译。

因添加了一个面向图像执行模型的编译解决方案，该框架在A100上训练性能提升86%，CPU推理性能也提升26%。

此外，PyTorch 2.0依靠PrimTorch技术，将原来2000多个算子缩到250个，让更多非英伟达的后端更易于访问；还采用了TorchInductor技术，可为多个加速器和后端自动生成快速代码。

而且PyTorch2.0还能更好支持数据并行、分片、管道并行和张量并行，让分布式训练更丝滑。

正是上述技术，再结合对英伟达之外厂商GPU和加速器的支持，原先CUDA为英伟达构筑的软件城墙就显得没那么高不可攀了。

枯叶先生2023-02-24 08:50

当然，在工艺流程和设备相同的情况下成本是有可能相差一点的，但不太会相差几十个点。学习曲线拉平的速度会很快，一般操作员，就拿技术含量较高的全检人员来看，3个月左右的时间就几乎和熟练工差别不大了（仅有些细微差别），而对机器操作员一个月已足够，技术员一般半年也就够了，3年是极限了。因此，据个人经验来看，半导体盈利能力除了设备外更主要是对新产品的导入，如台积电技术不断从14纳米，7纳米，3纳米的进取，就象我上面提到的那家，对新产品引入很快，20年前DIP、QFP已量产，但新的产品不断导入，后来的QFN、BGA、FBGA、PFBGA、Flipchip等等不断引入，lowcost产品从金线变铜线，我离开后听说有试铝线的……，现在的玩法更多了。半导体其实是一个强周期行业，其技术变化很快，试吃螃蟹的人往往会抓住第一波肥肉，就象上面的新品，当时那家厂做时，国内几乎没人做，客户要做只能找它玩，就连著名的龙芯都找它玩，于是它就可以吃到肉，一旦其他家也跟着有样学样地Qualify了，那款产品就变成了稳定制程的跑量产品，此时的利润率就下来了，大家拼的就是合格率，拼精细化，但到这一步也就基本不赚钱了。

全部讨论

麦麸泡泡糖

2023-02-23 11:37

查看64条回复

不好说，cuda 壁垒现在来看未必比 tsm 低

2023-02-23 12:03

不好说。一般的GPU不需要最先进的制程。而CUDA是软件生态，再菜的训练和推理应用如果想用cuda驱动的代码都得用。从头搭生态也有组织在搞，但是带头的都是自带干粮，不知道这批自干能不能搞成。

2023-02-23 11:49

cuda生态护城河比想象中大，要用cuda只能选nvdia，就算不用cuda，同性能gpu溢价20%很正常

死扛万科不投降

2023-02-23 11:35

西部世界来临了

2023-02-23 11:30

美国年中就会进入衰退，真的吗

2023-03-03 08:59

写的不错

2023-02-24 08:48

商业模式创新的重要性是毋庸置疑的，三星当年崛起也是因为很好把握住个人电脑兴起的浪潮。至于台积电是不是真的有护城河，那就真的不好说了，有时候一个企业的优势反而会成为其持续创新的负担，之前的挖矿需求、今天的AIGC，乃至对先进制成的极致追求可能都是最终锁死在一条赛道难以突破的枷锁。因此对于投资人来说，大致可以分为两类，一类是押注初创公司或者成长性企业，这是赌的风险收益，一类是押注成熟公司和行业龙头，这是赌的垄断收益，前者集中在短期风险后者则集中在长期风险，很难区别二者孰优孰劣，要看投资者的心性！

可控的数量级

2023-02-24 08:46

台积电的优势说的比较中肯了。英伟达的问题在于GPU本身可能会被颠覆，cuda这一套的优势就不复存在。

镇远号铁甲舰

2023-02-24 00:32

全世界，同时能够自己不依赖别人生产航空发动机、鱼雷、火箭、潜艇、空间站、卫星，也就中俄欧美列强吧？
台积电芯片代工干的好，刨除ASML等因素，也就是因为搞的早，砸钱多。

约瑟夫-白发居易

2023-02-23 11:58

关于衰退，看宏观数据，我觉得当前中国已经完成衰退阶段进入复苏，而在2~3个季度后美欧两个大经济体也将会相继完成衰退阶段进入复苏。
当然复苏也有弱复苏和强复苏的区别。