枯叶先生2023-02-24 06:27作为一个半导体行业老兵,随便说两句,象配方、温度、压力、操作速度、干燥时间等等工艺参数还真不是壁垒,核心还是在特定设备,不同设备的良品率差别很大。举个例子,20年前上海一家新厂从安森美挖了一批人,开始用和安森美同样的设备,良率很快达到很高,因为主要参数全都可以复制,但后来为了降本,从新加坡进了两台设备,同样的材料,人员,参数,十来个工程师做了几十组DOE,良率始终无法达到原来的良率,后来分析下来是设备稳定性的问题。因此,个人认为参数是一个影响因素,但没有想象的那么大。所谓的操作工规模效应,熟练度那更是偏题了,半导体设备自动化程度远超大家的想象。
forcode2023-02-23 20:34张忠谋的多个演讲中都提到过台积电的学习曲线优势,后来者要超过很难,除非出现革命性技术,或者台积电自己犯大错,我这样理解:
学习曲线优势跟规模直接相关,同一代最先进制程,最先拿到最多订单的芯片代工厂,工人最熟练,熟能生巧,自然效率最高。
你自己去杀一只鸡,可能从烧开水、动刀到去毛、清理内脏、切块等,没有个把小时搞不定。菜市场天天杀鸡的土鸡土鸭店老板十分钟给你搞定。唯手熟尔!
张忠谋反复强调,台积电最大的创新不是技术创新,而是商业模式创新,他认为商业模式创新比技术创新更值钱,经常举星巴克商业模式创新的例子。阿里巴巴和腾讯这种公司最初的成功,其实主要不是因为技术上有什么了不起的突破,淘宝网和QQ客户端并没有用到门槛极高的新技术,而是靠商业模式创新,没有重大技术创新的情况下做到了万亿级别。美团、拼多多等其实也是如此。
台积电的商业模式创新,核心是改变了芯片产业的客户,原来把芯片卖给电脑公司,创新为卖给其他芯片设计公司,比如高通、英伟达、AMD等,台积电只做代工,不做芯片设计,跟自己的客户完全没有竞争,相互配合去跟Intel和三星这种idm公司厮杀,台积电这种纯代工企业,才有可能彻底获得芯片设计公司的信任,Intel和三星做代工,信任问题始终是根本掣肘,苹果、英伟达、AMD等不大可能把最先进的芯片设计方案拿给Intel或三星去代工,Intel和三星只靠自家的订单量,远远没法跟台积电比订单规模,其生产车间设备的产能利用率、工人的熟练程度、内部专业化分工细化程度、材料连续供应数量质量、产品良率等等,都会落后,学习曲线就造成了台积电的直接成本更低、人均产值更大、出货速度更快、良率领先、毛利率更高,再加上大量订单带来的规模效应,分摊到每个芯片上的研发等固定成本也要小得多,所以,台积电能够投入到每一代制程上的研发经费非常充足,保证技术领先,在竞争对手没追上来时,就可以定高价,并且采用加速折旧法,等竞争对手新制程良率上来,台积电的生产线已经差不多折旧完毕,它的折旧成本比对手低一大截,研发成本因为规模效应也低得多,直接成本因为学习曲线也更低,良率还更高,就可以对成熟制程大幅度降价打压竞争对手,同时,台积电更先进的制程又准备投产了,所以你看Intel和三星被打得越来越力不从心,这两家芯片制程的落后具有必然性,迟早的问题。
只要台积电自己不犯大错,或者出现革命性芯片技术,后来者很难超越……
据说台积电一家的净利润,占了整个芯片产业最大比例,具体我没去验证过这个说法,相当于苹果公司在智能手机产业的利润份额,可见它的行业地位和定价权。
实际上,台积电开始的芯片代工模式,极大地促进了整个芯片产业乃至IT互联网产业的进步,因为它极大地降低了芯片行业的进入门槛,几十几百个人的小公司,都有可能设计出自己的芯片方案,交给代工厂生产。这在80年代之前是不可想象的。
坐在车里手机写的,比较啰嗦……
forcode2023-02-23 12:57我就想,如何吃到这一波aigc大爆发的时代红利,直觉这是一个万亿美元级别的技术突破,虽然达不到技术革命、开创一系列全新产业的地步,但肯定是一种“通用技术”,将来会渗透到各行各业,取代大量人力、大幅度提高劳动生产率。
我自己去年底花了1000多买域名主机,搞了个网站,结果想法验证不可行,我没有能力自己下场直接干,只能投资相关公司分享收益了。
确定性最强的是哪一家?微软和Google都看不懂,小的创业公司更难说,确定性最强的就是英伟达和台积电,只要搞aigc,就绕不开这两家,但以我目前的阅读来看,台积电的护城河很深,目前又处在硅周期底部,价格回调了一些,相对没那么贵了,值得好好阅读研究。最大的风险确实是地缘政治风险。
forcode2023-02-23 11:52台积电目前天下无敌,三星难以望其项背,英特尔更是被甩太远,台积电相比三星和英特尔的优势是商业模式优势,苹果高通这样的芯片设计公司,不放心把最先进的芯片设计方案交给三星这种IDM公司(竞争对手)代工,那Idm厂的规模效应就很难超过台积电,只要台积电自己不犯大错,很难被超越。
英伟达据说根基已经在慢慢被侵蚀,还刚开始。
英伟达CUDA垄断地位难保:PyTorch不断拆塔,OpenAI已在偷家
网页链接
/过去,虽然各大AI开发框架之间打得火热,但更底层的并行计算架构CUDA可算独霸一方。
但时过境迁,在AI框架的角逐中,PyTorch最终赢过此前领跑的TensorFlow,地位暂时稳了,然后就开始搞事情。
近些年PyTorch在拓展支持更多GPU,即将发布的PyTorch2.0首个稳定版也会对其他各家GPU和加速器支持进行完善,包括AMD、英特尔、特斯拉、谷歌、亚马逊、微软、Meta等等。
也就是说,英伟达GPU不再是那个唯一了
不过这背后其实也还有CUDA自身的问题。
内存墙是个问题
前面提到,CUDA崛起与机器学习浪潮彼此促进,共赢生长,但有个现象值得关注:
近些年,领头羊英伟达硬件的FLOPS不断提高,但其内存提升却十分有限。以2018年训练BERT的V100为例,作为最先进GPU,其在FLOPS上增长一个数量级,但内存增加并不多。
图片
△ 图源:semianalysis
在实际AI模型训练中,随着模型越来越大,内存需求也越来越大。
比如百度和Meta,在部署生产推荐网络时,需要数十TB内存来存储海量的embedding table。
放训练及推理中,大量时间实际上并未花在矩阵乘法计算上,而是在等待数据到达计算资源。
那为什么不搞更多内存?
简而言之,钞能力不足。
一般来说,内存系统根据数据使用需求,遵照从“又近又快”到“又慢又便宜”的结构安排资源。通常,最近的共享内存池在同一块芯片上,一般由SRAM构成。
在机器学习中,一些ASIC试图用一个巨大的SRAM来保存模型权重,这种方法遇到动辄100B+的模型权重就不够了。毕竟,即便是价值约500万美元的晶圆级芯片,也只有40GB的SRAM空间。
放英伟达的GPU上,内存就更小了:A100仅40MB,下一代的H100是50MB,要按量产产品价格算,对于一块芯片每GB的SRAM内存成本高达100美元。
账还没算完。目前来说,片上SRAM成本并没随摩尔定律工艺提升而大幅降低,若采用台积电下一代3nm制程工艺,同样的1GB,反而成本更高。
相比SRAM,DRAM倒是成本低很多,但延迟高一个数量级,且2012年来DRAM的成本也几乎没有明显压降。
随着AI继续向前发展,对内存的需求,还会增加,内存墙问题就是这么诞生的。
目前DRAM已占服务器总成本的50%。比如英伟达2016年的P100,比起最新的H100,FB16性能提升46倍,但内存容量只增加了5倍。
△ NVIDIA H100 Tensor Core GPU
另一个问题也与内存有关,即带宽。
计算过程中,增加内存带宽是通过并行性获得的,为此,英伟达使用了HBM内存(High Bandwidth Memor),这是一种3D堆叠的DRAM层组成的结构,封装更贵,让经费朴实的使用者们只能干瞪眼。
前面提到,PyTorch的一大优势在于:Eager模式让AI训练推理更灵活易用。但其内存带宽需求量也十分肥硕。
算子融合,即解决上述问题的主要方法。其要义在于“融合”,不将每个中间计算结果写入内存,而是一次传递,计算多个函数,这样就将内存读写量变少。
要落地“算子融合”,要编写自定义CUDA内核,要用到C++语言。
这时CUDA的劣势就显现出来了:比起写Python脚本,编写CUDA之于很多人真是难太多了……
相比下,PyTorch 2.0工具就能大幅降低这个门槛。其内置英伟达和外部库,无需专门学习CUDA,直接用PyTorch就能增加运算符,对炼丹师们来说,自然友好很多。
当然,这也导致PyTorch在近些年大量增加运算符,一度超过2000个(手动狗头)。
2022年末,刚发布的升级款PyTorch2.0更是大举发力,瞄准编译。
因添加了一个面向图像执行模型的编译解决方案,该框架在A100上训练性能提升86%,CPU推理性能也提升26%。
此外,PyTorch 2.0依靠PrimTorch技术,将原来2000多个算子缩到250个,让更多非英伟达的后端更易于访问;还采用了TorchInductor技术,可为多个加速器和后端自动生成快速代码。
而且PyTorch2.0还能更好支持数据并行、分片、管道并行和张量并行,让分布式训练更丝滑。
正是上述技术,再结合对英伟达之外厂商GPU和加速器的支持,原先CUDA为英伟达构筑的软件城墙就显得没那么高不可攀了。
枯叶先生2023-02-24 08:50当然,在工艺流程和设备相同的情况下成本是有可能相差一点的,但不太会相差几十个点。学习曲线拉平的速度会很快,一般操作员,就拿技术含量较高的全检人员来看,3个月左右的时间就几乎和熟练工差别不大了(仅有些细微差别),而对机器操作员一个月已足够,技术员一般半年也就够了,3年是极限了。因此,据个人经验来看,半导体盈利能力除了设备外更主要是对新产品的导入,如台积电技术不断从14纳米,7纳米,3纳米的进取,就象我上面提到的那家,对新产品引入很快,20年前DIP、QFP已量产,但新的产品不断导入,后来的QFN、BGA、FBGA、PFBGA、Flipchip等等不断引入,lowcost产品从金线变铜线,我离开后听说有试铝线的……,现在的玩法更多了。半导体其实是一个强周期行业,其技术变化很快,试吃螃蟹的人往往会抓住第一波肥肉,就象上面的新品,当时那家厂做时,国内几乎没人做,客户要做只能找它玩,就连著名的龙芯都找它玩,于是它就可以吃到肉,一旦其他家也跟着有样学样地Qualify了,那款产品就变成了稳定制程的跑量产品,此时的利润率就下来了,大家拼的就是合格率,拼精细化,但到这一步也就基本不赚钱了。