摩尔定律开始失效了。 单位面积内的芯片算力被定格在 H100 量级。从 B200 开始, GPU 要沿着堆料的方法摊大饼了。B200 仅比 H100 加速 13%:由于 B200 实际上是两块H100芯片拼起来的,单位面积内的算力需要除以二。以 LLM 目前最主要的训练方式 BF16 精度为计算单元,实际上...