回复@shhnf: 我不太清楚自动驾驶模型是怎么回事儿。目前来看，大模型的主要输入方法还是文字，不论是英文还是中文，输出...

作者：关山

发布于:2024-05-23 12:30

雪球

转发：0

回复：3

喜欢：0

回复@shhnf: 我不太清楚自动驾驶模型是怎么回事儿。目前来看，大模型的主要输入方法还是文字，不论是英文还是中文，输出可以有很多种，比如图片视频文字什么的。所以大模型我估计理解输入信息的方式还是一种类文字形的。图片那边，我估计也有个方法把图片转化成一种语言给大模型来理解吧？//@shhnf:回复@关山:那些多模态的大模型和语言的关系是不是没那么大，比如特斯拉的端到端自动驾驶模型。印象中大模型的核心是transformer结构和scaling law，这两个东西和语言的关系是绑定的吗？感觉输入输出应该不仅限于语言，也可以是图片、视频等等？

引用：

2024-05-23 07:56

$英伟达(NVDA)$，不管GPU拆的运算单元再细，把存储和运算单元封装的再近，它本质上也还是一个冯诺依曼架构，也就是说，算归算，存归存。
那么当模型参数不断变大，一次训练需要读取的参数就越多，假设如果你的大脑左脑负责运算，右脑负责存储。每次你想问题都需要把右脑的信息，先加载到左脑，...

全部讨论

shhnf

05-23 12:38

您说的文字输入指的是用户端吧？模型训练的时候，感觉各种内容都是要先转化成0101的数据结构的，既然文字可以，那么图片、视频应该也都可以吧，只不过转化的模式、难度和数据量不是一个级别的，文字最先跑通transformer+scaling law的模式。当然文字和图片、视频数据也可以混合标定来增强理解能力