发布于: | 雪球 | 回复:0 | 喜欢:4 |
我说的超出语言的东西,是一些说不清的东西。比如梵高那种乱画出来的画,大家说不清那是什么,完全就和真实的不像,但是就有很多人很喜欢。我国有个著名小提琴家叫薛伟,他说很不喜欢别人用语言来描述音乐,哪怕再精准再华丽,他都觉得会让音乐索然无味。说得清的,我们都能解构分析,都能写个程序出来,说不清的,咋写程序呢。。。。
我不太清楚自动驾驶模型是怎么回事儿。目前来看,大模型的主要输入方法还是文字,不论是英文还是中文,输出可以有很多种,比如图片视频文字什么的。所以大模型我估计理解输入信息的方式还是一种类文字形的。图片那边,我估计也有个方法把图片转化成一种语言给大模型来理解吧?
您说的文字输入指的是用户端吧?模型训练的时候,感觉各种内容都是要先转化成0101的数据结构的,既然文字可以,那么图片、视频应该也都可以吧,只不过转化的模式、难度和数据量不是一个级别的,文字最先跑通transformer+scaling law的模式。当然文字和图片、视频数据也可以混合标定来增强理解能力
那些多模态的大模型和语言的关系是不是没那么大,比如特斯拉的端到端自动驾驶模型。印象中大模型的核心是transformer结构和scaling law,这两个东西和语言的关系是绑定的吗?感觉输入输出应该不仅限于语言,也可以是图片、视频等等?