在没有多模态的时候 Ai认知直接的方式,只有文字。有了多模态,这个世界就是3维的 甚至四维的,是动态的。这就好比,原来是个盲人,盲人至少听力、触感还是健全的,现在就想当于一个完整感官的正常人。因为,这个数据获取,数据识别的体量完全不是一个数量级的,...