核心结论就是一个类比:-人类=人眼所见——大脑理解处理——给出反射执行-多模态=AI看见(视频)——数据处理(理解视频里的数据)——执行反馈。即核心就是理解AI看到的画面,重点是视频内的数据处理。-...