AI目前对能源消耗还不大,而且未来可能还要着重降低单位算力的能耗,就算将来总能耗十倍,一百倍增长,也依然占比不大。但是看能源,也不能只盯着AI,电动汽车这些。能源的消耗,几乎无处不在,这伴随着无论是工业还是消费提升的必然基础
分析自己的性格和能力,大概率只能是观望和错过。希望自己持仓中,能够在应用上有所斩获,但是最终可能是有了也只是保证行业竞争地位,没法取得超额利润。
AI目前对能源消耗还不大,而且未来可能还要着重降低单位算力的能耗,就算将来总能耗十倍,一百倍增长,也依然占比不大。但是看能源,也不能只盯着AI,电动汽车这些。能源的消耗,几乎无处不在,这伴随着无论是工业还是消费提升的必然基础
感谢山行兄开了这个话题。很高兴能分享自己的想法。
因为这篇帖子主要是用于科普,所以我就简单地谈一下我的看法和想法,试图去简单描述一下未来可能的机会和方向在哪里。申明一下,这篇帖子只讨论目前备受关注的大模型人工智能相关的东西,不讨论其余的人工智能技术,比如推荐系统,图像识别等等。
如果把大模型人工智能产业链简单地区分一下,我认为可以分为三层。第一层是硬件层,也就是算力层,目前由英伟达统治;第二层是大模型层,目前最突出的公司是背靠英伟达和微软的openai;第三层是应用层,这一层主要基于大模型做应用,目前已经有了gpt应用商店,但是没有诞生比较大影响力的公司。
对于第一层硬件层/算力层,目前我国的公司和英伟达差距甚远。我觉得算力不仅仅是有无,还有优劣之分。如果只是像yzd一样只要制造出来,优劣没有太大区别的话那很好办。但是,如果我们制造出来的算力芯片和别人差太多,就没有太大的意义。
对于第二层大模型层。先要说一下大模型是怎么诞生的。简单来说,一个大模型是大量高质量的数据训练合理算法框架得出的结果。这里面有三个词,大量高质量的数据、训练、合理的算法框架。第一,对于大量高质量的数据,在数据的量上我国有优势,毕竟场景和人口都有优势,这一块我国有好的公司出现时非常有可能的。第二,合理的算法框架,这个是每个公司内部的秘密,每个公司都有自己的框架。我国和mg都有非常多的公司在做大模型。第三,训练。训练是一个非常庞大的工程,大模型训练一次要花几个月的时间,以及上千万美元的费用。怎么去训练,以及怎么传输好海量的数据都是非常复杂且困难的工程问题。从Google的bard等一众大模型都比不上openai的gpt4.0和sora上看,其余公司的差距要远远大于google和openai的差距。想要追上也是一件非常酷男的事情,因为训练的成本对于openai来说是指数级下降的(反过来说就是他们的效率在指数级上升)。
对于第三层应用层。我认为,在相对较短的时间内(2-3年),出现有影响力的公司的概率非常大。这一点是毋庸置疑的。比如专业的私人医疗助手,这个就是一个非常好的应用。这一层我国和mg都有非常大的机会。不存在很大的初始差别。
第一层和第二层我们的差距都太远。但是长期来看,这个方向是国家大力发展,一定要做出来的。不过想要追上确实压力非常大,openai确实一骑绝尘。
算法差距不会太大,主要还是算力与数据。算法是人的问题,华人不缺优秀大脑。算力确实被卡了,涉及到一个巨大的供应链,这个不是集中力量办大事能解决的。另外数据层面,汉语世界就没有什么高质量文本。人家数据几百年积累,规范又高质量。个人看法。
感谢山行兄开了这个话题。很高兴能分享自己的想法。
因为这篇帖子主要是用于科普,所以我就简单地谈一下我的看法和想法,试图去简单描述一下未来可能的机会和方向在哪里。申明一下,这篇帖子只讨论目前备受关注的大模型人工智能相关的东西,不讨论其余的人工智能技术,比如推荐系统,图像识别等等。
如果把大模型人工智能产业链简单地区分一下,我认为可以分为三层。第一层是硬件层,也就是算力层,目前由英伟达统治;第二层是大模型层,目前最突出的公司是背靠英伟达和微软的openai;第三层是应用层,这一层主要基于大模型做应用,目前已经有了gpt应用商店,但是没有诞生比较大影响力的公司。
对于第一层硬件层/算力层,目前我国的公司和英伟达差距甚远。我觉得算力不仅仅是有无,还有优劣之分。如果只是像yzd一样只要制造出来,优劣没有太大区别的话那很好办。但是,如果我们制造出来的算力芯片和别人差太多,就没有太大的意义。
对于第二层大模型层。先要说一下大模型是怎么诞生的。简单来说,一个大模型是大量高质量的数据训练合理算法框架得出的结果。这里面有三个词,大量高质量的数据、训练、合理的算法框架。第一,对于大量高质量的数据,在数据的量上我国有优势,毕竟场景和人口都有优势,这一块我国有好的公司出现时非常有可能的。第二,合理的算法框架,这个是每个公司内部的秘密,每个公司都有自己的框架。我国和mg都有非常多的公司在做大模型。第三,训练。训练是一个非常庞大的工程,大模型训练一次要花几个月的时间,以及上千万美元的费用。怎么去训练,以及怎么传输好海量的数据都是非常复杂且困难的工程问题。从Google的bard等一众大模型都比不上openai的gpt4.0和sora上看,其余公司的差距要远远大于google和openai的差距。想要追上也是一件非常酷男的事情,因为训练的成本对于openai来说是指数级下降的(反过来说就是他们的效率在指数级上升)。
对于第三层应用层。我认为,在相对较短的时间内(2-3年),出现有影响力的公司的概率非常大。这一点是毋庸置疑的。比如专业的私人医疗助手,这个就是一个非常好的应用。这一层我国和mg都有非常大的机会。不存在很大的初始差别。
第一层和第二层我们的差距都太远。但是长期来看,这个方向是国家大力发展,一定要做出来的。不过想要追上确实压力非常大,openai确实一骑绝尘。
说点自己知道的,仅供山神参考
算力部分,推理其实相对好取代一点,vllm这类推理框架也在慢慢加入RCom的支持,重要的是推理是小批次(最多也就推理1M token了,常见推理也就1~4k上下文,吐出1k token)但是完全趋同的操作,人力投入是一次性的,一旦兼容了,出问题几率较小。
而训练部分人工反复比较多,每次又是大批次操作,很多GPU并行跑上一两天看结果,这时碰上一个兼容性问题就得重来,在AI公司拼速度时没人愿意这么冒险浪费人工,这些方面Cuda的先发优势会维持更长时间。反过来也是只有谷歌最新的Gemini/Gemma明确说是在自家TPU上训练出来的,可以抬升自己的价值。
小批量的神经网络/机器学习/模型微调(我个人直接玩过),程序员直接面对的pytorch/tensorflow,或者抱抱脸的Transformer实现,上面再有一些并行框架如Deepspeed/TorchRun,再往上层有整合好的微调工具包Axolotl等。
pytorch/tensorflow 最常见靠谱的底层是cuda,但是绝非按照cuda编写的,现在也在积极吸纳RCom等兼容性实现,华为的910B也在积极适配这些框架,兼容性问题总能慢慢解决,我也听说了某些完全跑通7B大模型训练的例子。
另外训练时,单卡算力并不是难点,比较困难的是多卡(或者总显存要求极高时)到底能否高性能并行。既考验单机多卡之间的带宽,也考验机群中多机的带宽,同时还要求并行库和实际训练框架之间的调优和配合。这部分还不能说完全不被卡脖子,但是也不是一片绝望。
算法差距不会太大,主要还是算力与数据。算法是人的问题,华人不缺优秀大脑。算力确实被卡了,涉及到一个巨大的供应链,这个不是集中力量办大事能解决的。另外数据层面,汉语世界就没有什么高质量文本。人家数据几百年积累,规范又高质量。个人看法。
主要问题不是能耗,而是计算效率。算盘打得飞起,也比不了计算机。1000个386加一起也比不了一个酷睿I7。
算力差距是不是能大力出奇迹,要看未来的AI是中心母机,还是分布式的单机联网。以前刚出计算机的时候,苏家的计算机研发开始是不落后的,甚至有些技术领先,后来它家计算机主要用在各部门做中央计划和反导等武器系统,都是大型集中运算,另一方美家则开始个人小型计算机普及,最后结果也不一样。另外AI高级智能化后,完全中心化是很不安全的,一旦这个母机抑郁了或者发疯了,就是灾难。
堆肯定能堆出来, 出来后也就是百度和谷歌的差距。内循环的Ai和国际通用Ai的区别,深度监控Ai和持续创新Ai的区别。