讨论详情 - 雪球

发布于:2024-02-23 12:22

雪球

回复：7

喜欢：19

说点自己知道的，仅供山神参考
算力部分，推理其实相对好取代一点，vllm这类推理框架也在慢慢加入RCom的支持，重要的是推理是小批次（最多也就推理1M token了，常见推理也就1~4k上下文，吐出1k token）但是完全趋同的操作，人力投入是一次性的，一旦兼容了，出问题几率较小。
而训练部分人工反复比较多，每次又是大批次操作，很多GPU并行跑上一两天看结果，这时碰上一个兼容性问题就得重来，在AI公司拼速度时没人愿意这么冒险浪费人工，这些方面Cuda的先发优势会维持更长时间。反过来也是只有谷歌最新的Gemini/Gemma明确说是在自家TPU上训练出来的，可以抬升自己的价值。
小批量的神经网络/机器学习/模型微调（我个人直接玩过），程序员直接面对的pytorch/tensorflow，或者抱抱脸的Transformer实现，上面再有一些并行框架如Deepspeed/TorchRun，再往上层有整合好的微调工具包Axolotl等。
pytorch/tensorflow 最常见靠谱的底层是cuda，但是绝非按照cuda编写的，现在也在积极吸纳RCom等兼容性实现，华为的910B也在积极适配这些框架，兼容性问题总能慢慢解决，我也听说了某些完全跑通7B大模型训练的例子。
另外训练时，单卡算力并不是难点，比较困难的是多卡（或者总显存要求极高时）到底能否高性能并行。既考验单机多卡之间的带宽，也考验机群中多机的带宽，同时还要求并行库和实际训练框架之间的调优和配合。这部分还不能说完全不被卡脖子，但是也不是一片绝望。

盘在树上睡觉的蛇的讨论

作者：盘在树上睡觉的蛇

热门回复

盘在树上睡觉的蛇 的讨论

作者：盘在树上睡觉的蛇

热门回复

盘在树上睡觉的蛇的讨论