木桶效应:H200证明HBM比台积电更重要

发布于: iPhone转发:6回复:25喜欢:14

转自@再现荣耀 先聊一下英伟达H200:

H200充分证明了就算不添加更多CUDA核或超频,只增加更多的HBM和更快的IO,即便保持现有Hopper架构不变,英伟达依然可以实现相当于架构代际升级的性能提升。这么简单为什么不直接做?HBM太贵了,贵到超过了GPU本身的die cost(只算代工BOM),提升HBM就意味着牺牲毛利,把毛利出让给海力士。作为AMD或者Intel毛利率40%的选手double HBM比割肉还疼,但作为只看晶圆成本毛利率几乎90%的英伟达,面对一个严重供不应求的市场,且具有提价pass through能力(不是可能,是一定会),提升HBM是顺理成章。尤其是AMD将在12月6日发布“Antares”系列GPU,以及Instinct MI300X的192GB HBM3,以及对标Grace Hopper的MI300A拥有128GB HBM3(这些都超过了H100的HBM量),英伟达这次的突然发布有点像对此的回应。从另一个角度,不得不令人怀疑,之前鼓吹算力、核数,多少有营销的成分,之前如此高的算力实际上都没有被充分利用,因为可怜的显存数量和IO带宽是瘸掉的两条腿,你上臂摆得再快,也跑不动啊!如果你再想想英伟达依旧巨高的毛利率,以及2-3万美金的价格,可以买多少HBM?大概大几百GB?。没办法,说白了这是英伟达有“能力”选择留给自己的利润。谁让你离不了CUDA呢?你不配拥有这么多HBM!从这个角度,巨头定制ASIC真的有非常非常强的动力,不仅仅是节省cost了,我可以获得更强大的内存和IO,以及(如果软件适配和通用性解决的话)更强大的性能。当然,后者可能比较难实现...从这个角度,HBM甚至比台积电的制程更重要,耗费巨额资金研发调试跑通扩产出来的3nm以及未来的GAA,对GPU的提升又是老掉牙的20%30%,这种速度哪跟得上AI的速度?而HBM只要成本实现快速降低、更紧密的堆叠、更快的IO,对GPU性能的推动却是几何数级别的。想到这里我自己都觉得好有趣啊,往往你觉得最难的事情反而价值不是最大!而你最不起眼的事情,可能惊奇地发现是关键。再回到英伟达昨天一起发的这张图,H200相比H100的性能提升,真就与HBM的提升(volume+speed)比例几乎一致。此外短短3年推理的性能提升了18倍非常惊人。最后,可以预测下B100的spec了,会不会是256甚至512GB的HBM+10TB/s的带宽,而与之对应的价格(合理假设英伟达决定保持毛利率不变)可能要到6-9万美金。

全部讨论

2023-11-18 21:51

就是这个发布会。。。。HBM舆情爆了。。资本市场爆了。。。。对比备受热捧的H100芯片,这款新的GPU(图形处理单元)完成了1.4倍内存带宽和1.8倍内存容量的升级,提高了处理密集生成式人工智能负载的能力。据介绍,在处理Meta的大语言模型Llama2(700亿参数)时,H200的推理速度比H100提高了2倍。
从外观上看,H200似乎与H100基本相同。内存方面,H200芯片是第一款采用HBM3e(新型超高速高带宽内存)的GPU。HBM3e可加速生成式AI和大语言模型工作负载,将GPU的内存带宽提高到每秒4.8TB,而H100为每秒3.35TB,同时将其总内存容量提高到141GB,而其前身为80GB。与再前一代的A100相比,其容量翻倍,带宽增加2.4倍。
对于高性能计算(HPC),显存带宽也至关重要,其可以实现更快的数据传输,减少复杂任务的处理瓶颈。对于模拟、科学研究和人工智能等显存密集型HPC应用,H200更高的显存带宽可确保高效地访问和操作数据。据介绍,相较于H100,H200在处理高性能计算的应用程序上有20%以上的提升。
英伟达大规模与高性能计算副总裁伊恩·巴克(Ian Buck)在演示视频中表示,“HBM内存的整合有助于加速计算密集任务的性能,包括生成式人工智能模型和高性能计算应用,同时优化GPU的利用率和效率。”“借助H200,业界领先的端到端人工智能超算平台的速度会变得更快,一些世界上最重要的挑战,都可以被解决。”
H200还与支持H100的系统兼容。英伟达表示,云服务提供商在添加H200时无需进行任何更改。亚马逊、谷歌、微软和甲骨文等公司的云服务部门将是明年首批接收新GPU的公司。
除了各种芯片性能升级外,一个重要的关注点在于公司是否能够得到这些新芯片,或者它们是否会像H100一样受到供应限制。对于这个问题,英伟达并没有确切的答案。该公司表示正在与“全球系统制造商和云服务提供商”合作,以使其可用。英伟达发言人克里斯汀·内山(Kristin Uchiyama)拒绝就生产数量发表评论。
此外,价格也是核心焦点。英伟达目前没有列出新芯片的价格,内山表示定价由英伟达的合作伙伴确定。据美国媒体CNBC报道,上一代H100估计每个售价在25000到40000美元之间,要想在最高水平上运行,可能需要数千个H100芯片。
目前全球的人工智能公司还面临着“算力荒”,急切寻找H100芯片成为常态(H100被视为高效训练和运行生成式人工智能和大语言模型的最佳选择)。这些芯片已经成为了“硬通货”,甚至有公司将H100芯片用作贷款的抵押品,在硅谷谁拥有多少H100芯片也是热门的八卦话题。
内山在接受科技媒体The Verge的采访中表示,H200的推出不会影响H100的生产,“你将看到我们在整个年度增加总体供应”。据《金融时报》8月报道,英伟达计划在2024年将H100的生产量增加到三倍,目标是明年生产200万个(2023年生产约50万个)。

2023-11-18 21:46

台积电主导的CoWoS高端封装和头部存储厂持续迭代的HBM(高带宽存储)。
英伟达想赚钱,还得看台积电和SK海力士的脸色行事。最终英伟达因为AMD的关系选择了后者。。。。放弃了台积电关键台积电排队和提升太久了。。。要跟AMD竞争。。。只能这样,其实H200跟H100之间没啥差别,唯一 就是HBM叠加了。。。。。
HBM是垂直堆叠DRAM芯片,通过硅通孔(TSV)连接,并使用TCB键合(未来需要更高的堆叠数量)。
人工智能加速器的性能受到从内存中存储和检索训练和推理数据的能力的瓶颈:这个问题通常被称为内存墙。
为了解决这个问题,领先的数据中心GPU与高带宽内存(HBM)共同打包。
SK海力士公司于2022年6月开始生产HBM 3,目前是唯一一家批量交付HBM 3的供应商,市场份额超过95%,这是大多数H 100 SKU正在使用的产品。
HBM的主要挑战是封装和堆叠存储器,这是SK海力士所擅长的,积累了最强的工艺流程知识。

2023-11-18 22:31

还有,H200,用了更多的NVLINK,使得GPU之间速度更快,不单单是HBM3E,算力,是多个硬件,组合的产品

2023-11-18 21:22

没有标的啊 光模块是正宗的全球前列的供应商,这个题材没有核心地位的标的,都是替代性很强的边缘标的,下不去手啊

2023-11-19 09:39

也就是再好的发动机,再大的马力,也要有宽大的马路才行。这样才开的爽

2023-11-18 21:05

海力士好像也在美股上市的吧?代码知道不?

2023-11-19 19:22

LoMaRe开发压磁RAM(PMRAM)
磁阻RAM是一种新的有前途的计算机内存技术。由于几个原因,MRAM有可能成为通用存储器解决方案。特别是,它提供了高速和几乎无限的可靠性,静态RAM(SRAM)等低延迟,以及高密度和电源效率。与传统闪存一样,它是非易失性的。此外,它能够抵抗极端温度和辐射。
英国初创公司LoMaRe开发了一种正在申请专利的压磁RAM技术。与当前最先进的MRAM相比,它具有许多优势,包括与闪存相比,功耗至少降低25.000倍,耐用性更高,并允许在高温下运行。这家初创公司的解决方案在汽车、物联网 (IoT) 和计算领域找到了应用。

2023-11-18 22:28

小白求教,请问加大显存对闪存有什么影响吗?@再现荣耀

2023-11-19 08:55

个人投资的几点总结,我时常拿来阅读,警示自己:
*基于常识,独立思考。* 投资以年为单位。*加仓时,在时间和空间上拉开跨度。* 试图躲过下跌,也将错过上涨。* 跌了攒股,涨了赚钱,盈亏同源。*安全边际就是:买的便宜和降低预期。*好公司,好价格,好心态。*底部要敢于重仓。底部是一个区间,不是一个点。低位胆小,赚的很少;高位加仓,一把亏光。*A股90%以上的时间是震荡或下跌,买入时,一定要分批。甚至空仓等待大机会。* 卖出股票的三个理由:估值高了;经营出现问题了;有更好的标的了。*不要总想买在最低点,卖在最高点,那不是人类所能做到的事情。* 投资是反人性的。买在无人问津处,卖在人声鼎沸时。* 要想拿长久,最好忘掉它。* 我们生活中遇到的绝大多数困难,把时间拉长,回过头看,都不算什么。同样的,用长远的眼光,长期持有股票,短期的波动也不算什么。* 多阅读,多学习,增长认知。*多锻炼身体,价值投资首先要投资身体健康。

2023-11-19 19:22

报告期内,公司聚焦核心技术持续构建和完善知识产权体系,新增专利授权20项,其中授权发明专利5项;新增专利申请44项,其中发明专利23项。截止报告期末,公司拥有有效专利272项,其中授权发明专利54项。公司已连续两届入选全球氢能产业发明专利排行榜(前100名)。公司投资的磁存储芯片(PMRAM)在读写次数、读写速度、低功耗以及材料制造工艺光刻工艺等都有突破性进展,目前芯片已在代工厂进行流片 永安行