shhnf 的讨论

发布于: 雪球回复:0喜欢:0
您说的文字输入指的是用户端吧?模型训练的时候,感觉各种内容都是要先转化成0101的数据结构的,既然文字可以,那么图片、视频应该也都可以吧,只不过转化的模式、难度和数据量不是一个级别的,文字最先跑通transformer+scaling law的模式。当然文字和图片、视频数据也可以混合标定来增强理解能力