请教一下英伟达的GPU和谷歌的TPU上，在通用性上有什么样的区别，是不是谷歌的TPU做不了视频AI或者做不了图片...

发布于:2023-07-04 13:31

雪球

转发：5

回复：16

喜欢：11

请教一下英伟达的GPU和谷歌的TPU上，在通用性上有什么样的区别，是不是谷歌的TPU做不了视频AI或者做不了图片AI，是不是英伟达在GPU上的硬件和软件CUDA生态上的护城河已经牢不可破，即便明知英伟达GPU昂贵，数据中心也只能必须采购？$中际旭创(SZ300308)$ $英伟达(NVDA)$ $寒武纪-U(SH688256)$

全部讨论

wiisjsndi

2023-07-04 15:00

CPU是Central Processing Unit的缩写，是个中央处理器。CPU具有灵活性优势，支持几百万种不同的应用和软件。而GPU是一个图形处理器，来自于Graphics Processing Unit这个缩写。GPU为了获得比CPU更高的吞吐量，策略简单，在单个处理器中用成千上万个核，但因为数字逻辑运算单元也少而简单，所以GPU初始时在浮点计算上会弱于CPU，但GPU的核数远超CPU，被人们称为众核。TPU是谷歌的张量处理器，源于Tensor Processing Unit这个缩写，是一种定制化芯片，为机器学习而定制，每瓦计算能力更高效。但TPU 不能运行文本处理软件、控制火箭引擎或执行银行业务。TPU物理空间占用不大，速度非常快且能耗小。

李先生价值投资

2023-07-04 23:46

其实就是GPU和TPU在通用性上的区别。GPU(图形处理器)英伟达出品,非常适合通用计算任务,尤其是人工智能训练、图像处理等任务。主要优点是程序缓存大,并行性强,计算速度快。
TPU(特定用途处理器)谷歌自研,专注于机器学习加速,构造上优化了人工神经网络运算。主要优点是能量效率高,运算密集型任务运算速度更快。
GPU更加通用,适用于广泛的AI训练任务,包括图像AI、视频AI等。TPU由于专注设计,主要用于深度学习神经网络训练,在某些特定任务上有性能优势。
GPU制造困难较大,英伟达在硬件构造和CUDA生态上处于领先地位,困难令数据中心不得不使用。但TPU也具有独特优势,谷歌等科技巨头仍在大力研发。
不过其实GPU和TPU仍书是互补要大，而不是竞争关系。它们在不同领域发挥各自的优势。在AI处理器领域,除GPU、TPU外,还有NPU(神经网络处理器)等新兴领域。未来通用性和专用性可能会更加融合。
所以GPU和TPU在通用性上存在差异,但具有互补性。未来AI处理器行业将更加多元,英伟达的地位或面临更多挑战。

一只小小散

2023-07-04 17:27

GPU主要是图形处理，通用性较CPU弱而强于TPU。
TPU主要是专用数据处理，通用型更差。
倒不是说谷歌的TPU做不了视频AI，图片AI，而是谷歌的定制导致TPU只适用于自家的AI。
而不像，英伟达的GPU适用性更广泛。
举例而言，GPU像是瑞士军刀，而TPU像唐刀，分别应用于不同场景。

一静破万难

2023-07-04 16:54

英伟达的GPU和谷歌的TPU在许多方面有所区别。首先，GPU是通用处理器，适用于各种计算任务，包括图形处理、科学计算和机器学习等。而TPU（Tensor Processing Unit）是谷歌根据深度学习任务设计的专用芯片，专注于高效的矩阵计算，适用于大规模的深度学习模型训练和推理。
TPU在深度学习任务方面表现优异，其专为深度学习任务而优化的硬件结构和指令集能够提供高性能和能效比。然而，TPU相对于GPU而言在通用性上的局限性较大，并不能灵活地处理各种任务。相比之下，GPU在通用计算领域更加灵活，适用于多种任务，并且由于其较长时间的发展和广泛应用，具备丰富的软件生态系统（如CUDA）支持，使得开发和使用更加便利。
尽管TPU在深度学习任务上具有优势，但并不意味着它无法用于视频AI或图像AI。事实上，谷歌的TPU在处理图像和视频方面仍然表现出色，并且在特定场景下可以提供更高的性能。然而，由于GPU的通用性，它在处理多种任务和领域上表现更为出色。
至于英伟达在GPU硬件和软件生态上的优势，确实让其在数据中心领域保持了强大的竞争优势。英伟达的CUDA生态系统成熟而稳定，并且广泛支持各种机器学习和科学计算框架。这使得许多公司在考虑到GPU的性能、稳定性和软件支持方面，选择继续采购英伟达的GPU。
需要注意的是，无论是GPU还是TPU，都具备其独特的优势和适用场景。选择适合自己需求的硬件取决于具体的应用场景和任务需求，以及对性能、灵活性和软件支持的重要性考量。

一只小小散

2023-07-04 17:30

也好像，一个是土豆(GPU)，一个是水果(TPU)，虽然都是食物，但奔着主食去填饱肚子的一定是选择土豆，只有满足温饱，才有资格去考虑水果来满足生活，水果的面向人群更窄。

乾坤量化首席分析师

2023-07-04 15:16

阿格隆OM

2023-07-04 13:38

由于在硬件架构方面的出色设计，英伟达的GPU非常适合矩阵乘法任务——能有效地在多个CUDA核心之间实现并行处理。
因此从2012年开始，在GPU上训练模型便成为了深度学习领域的共识，至今都未曾改变。
而随着NVIDIA DGX的推出，英伟达能够为几乎所有的AI任务提供一站式硬件和软件解决方案，这是竞争对手由于缺乏知识产权而无法提供的。
相比之下，谷歌则在2016年推出了第一代张量处理单元（TPU），其中不仅包含了专门为张量计算优化的定制ASIC（专用集成电路），并且还针对自家的TensorFlow框架进行了优化。而这也让TPU在矩阵乘法之外的其他AI计算任务中具有优势，甚至还可以加速微调和推理任务。
此外，谷歌DeepMind的研究人员还找到了一种能够创造出更好矩阵乘法算法的方法——AlphaTensor。
谷歌的TPU，相比于TPU v3，TPU v4的性能要高出2.1倍，而在整合4096个芯片之后，超算的性能更是提升了10倍。比英伟达A100更快、更节能。对于规模相当的系统，TPU v4可以提供比英伟达A100强1.7倍的性能，同时在能效上也能提高1.9倍。谷歌分别展示了在5个MLPerf基准测试中每个DSA的最快性能。其中包括BERT、ResNET、DLRM、RetinaNet、MaskRCNN。
其中，Graphcore IPU在BERT和ResNET提交了结果。
A100的峰值每秒浮点运算次数是TPU v4的1.13倍，但对于相同数量的芯片，TPU v4却快1.15倍至1.67倍。
因此这些大模型必须分布在数千个芯片上，然后这些芯片必须协同工作数周，甚至更长时间来训练模型。
目前，谷歌迄今为止公开披露的最大的语言模型PaLM，有5400亿参数，便是在50天内将其分割到两台4000芯片的超级计算机上进行训练的。

作者：多空策略sdzb

全部讨论