发布于: 雪球转发:0回复:3喜欢:0
回复@shhnf: 我不太清楚自动驾驶模型是怎么回事儿。目前来看,大模型的主要输入方法还是文字,不论是英文还是中文,输出可以有很多种,比如图片视频文字什么的。所以大模型我估计理解输入信息的方式还是一种类文字形的。图片那边,我估计也有个方法把图片转化成一种语言给大模型来理解吧?//@shhnf:回复@关山:那些多模态的大模型和语言的关系是不是没那么大,比如特斯拉的端到端自动驾驶模型。印象中大模型的核心是transformer结构和scaling law,这两个东西和语言的关系是绑定的吗?感觉输入输出应该不仅限于语言,也可以是图片、视频等等?
引用:
2024-05-23 07:56
$英伟达(NVDA)$,不管GPU拆的运算单元再细,把存储和运算单元封装的再近,它本质上也还是一个冯诺依曼架构,也就是说,算归算,存归存。
那么当模型参数不断变大,一次训练需要读取的参数就越多,假设如果你的大脑左脑负责运算,右脑负责存储。每次你想问题都需要把右脑的信息,先加载到左脑,...

全部讨论

05-23 12:38

您说的文字输入指的是用户端吧?模型训练的时候,感觉各种内容都是要先转化成0101的数据结构的,既然文字可以,那么图片、视频应该也都可以吧,只不过转化的模式、难度和数据量不是一个级别的,文字最先跑通transformer+scaling law的模式。当然文字和图片、视频数据也可以混合标定来增强理解能力