shhnf 的讨论

作者：shhnf

发布于:2024-05-23 12:38

雪球

回复：0

喜欢：0

您说的文字输入指的是用户端吧？模型训练的时候，感觉各种内容都是要先转化成0101的数据结构的，既然文字可以，那么图片、视频应该也都可以吧，只不过转化的模式、难度和数据量不是一个级别的，文字最先跑通transformer+scaling law的模式。当然文字和图片、视频数据也可以混合标定来增强理解能力