除了人才与技术积累的鸿沟,大模型需要的大规模算力与高质量数据集也是缺一不可。视频生成相对于文本图像生成所需的低维隐空间参数量都是数量级的提升,对应的,高质量的数据样本和更大规模的计算卡二是刚需。算力几乎被拥有cuda的英伟达垄断,视频数据样本则主要散落在各个视频网站
讨论已被 捣蛋喵 删除