电广传媒——开始就走在正确的路上：还未被发现的中国sora。AI应用浪潮的真正宝藏。最近玩了一个软件PIXVERSE。一个朋友突然说这个软件做的视频和pika差不多，并且操作更简单，生成的视频比pika...

最近玩了一个软件PIXVERSE。一个朋友突然说这个软件做的视频和pika差不多，并且操作更简单，生成的视频比pika更真实，对中文语言的分析能力比pika更强。在sora出现后做了测评视频：
【AI审判日：用SORA提示词比较Runway、Pika、Pixverse的文生视频效果-哔哩哔哩】网页链接——特别感谢空格君的测评。

根据测试中相同的提示词，可以很明显的发现pix 比pika能力强很多。但是这一部分其实很难定价，因为pika当时炒作的时候，pika的创始人的父亲的公司直接翻了一倍，但信雅达跟pika没有任何关系。按照A股新题材预期拉满的原则，pix的这一部分就能让电广突破14元小前高。之所以难以定价的原因是因为现在这类模型和应用都没有办法真正的取代什么。无论是Sora还是pix或者pika，都只能生成很短的视频，受制于算力，并且受制的太大了。

但是很明显的一点，这是中国唯一功能和sora竞争的文生视频和图文转换AI软件，是比去年的中文在线逻辑更好的多的一票。更何况sora还没有公测。

下面说一下为什么这么多文生视频模型里我最看好电广传媒。首先说视频，还记得初中计算机课是要考用flash制作动画的（飞驰的汽车），一秒24帧，只要一秒钟运行超过24帧，快速变换的图片就会骗过人的眼睛，随即产生了视频。大模型也差不多，这样我们大概就可以简单的将文生视频理解为：文字→图片→视频。（只是方便小白理解，真正的逻辑比这个复杂的多，但是底层逻辑就是这样的。）

那么我们就先理解怎样文字怎样生产图片。这里来到今天第一个知识点——文生图的几种模型：扩散性模型（DDPM），循环网络模型（RNN），生成对抗模型（GAN）。后两种已经由于各种理由被抛弃，现在sora和PIX使用的都是DDPM模型。这个模型很有意思，它的训练方法是给图片打上一层层薄薄的马赛克（专业的话叫高斯噪声）每打一层马赛克就记录一次，然后把这个过程记录下来让机器学习，然后通过贝叶斯公式（我真的很想给大家介绍这个公式，但是看了一天也没看懂）的推导得到一个特殊的公式集。然后你给计算机一个充满马赛克的图片，大模型运用机器推倒的这个公式来一层层剥离马赛克（高斯噪声），最后得到一张高清图片。

那么现在就需要把文字和图像联系起来。

和Stoble Diffusion直接文字生产图片不同，sora借助之前CLIP的原理引入了一个condition 模块来把文字信息编码，然后再通过线性代数（就是把信息编码化成一个个矩阵）来预测你文字的信息然后定向生成图像。这样就得到了通过文字描述的图像。

但是生成这些图片也只是开始，看sora早期的视频就可以知道，视频图片之间的关联性非常差，比我初中做的Flash视频还差，有一种直接两张图片之间强行关键帧之间插入动画效果的感觉，具体可以参考巨石强森吃石头的这个视频。【【AI生成】巨石强森吃石头高清重制！！-哔哩哔哩】网页链接

那么如何改变这一点呢？sora选择了transformer的出路，GPT里的这个T字，所代表的就是transformer ，这是一种对你说过的话的联想和提取关键词的机制，并且无论你说了多少，他都能提取到关键词。因为你一句话里的每一个单词，他都能将它们标入向量空间里，然后化为一个矩阵，然后通过矩阵里每一个单词和其他词的关联度找出关键词。图生视频中图片和图片之间的关联度想要做好也是这么来的，因为transformer 可以做好没有相关度的图片之间的预测。而想要做好transformer 的办法，就是投喂数据，也就是所谓的力大砖飞。这是最重要的一点，投入足够量的数据然后进行压缩在进行拆分和重组（这一部分实在是太复杂了，我也没记得很清楚）。这样就完成了足够的训练。剩下的最后一步就是投入应用，这是最简单的，就是投入一个外接口就可以。这就是整个大致的原理。

而现在整个市面上除了腾讯，阿里，字节等大厂能够给相应的大模型，提供足够的数据（这种数据不是随意找的，）可能只剩下电广能够做到这一点了，因为电广投的足够多，这之间的数据是能打通的。并且这次给我讲解的工程师（自称是一位不愿意透露姓名的码农）说：“在sora震惊世界的时候，我们非常惊喜的发现，在技术报告里提到的sora（可能）会用到的方法，我们在很久之前就注意到，并且用在PIX中，因为我认为在整个AI浪潮中，OPEN AI都是绝对的前沿，所以在这两年我以朝圣的心态阅读了创始团队和高层的每个人所撰写的每一篇论文，在文生视频里用Transformer 就是这篇论文给我的启发——Scalable Diffusion Models with Transformers。至于所谓的三个月超越sora，这并非开玩笑，因为PIX从一开始就走在正确的路上，只不过六月份能超越的是二月底的sora，至于六月份sora能成长到什么地步，我们不知道，但是我们也有一些阻力，就是算力的桎梏，之前奥特曼想要募集60000亿美金来购买算力，我觉得他也没开玩笑，如果真的有人愿意投这笔钱的话，他们真的能用来购买显卡，现在桎梏sora和PIX的都是一个词，算力严重不足。但是这是很正常的事情，就像你之前玩过魂斗罗吗，一个存储空间只有120kb的游戏卡带中给你放了好几个关卡，还有一首音乐。现在你在电脑上搜那一首音乐，所需要的存储空间都是120kb的十倍。我想我们也能以我们特有的方式来尽可能的减少算力对我们的桎梏，这是我们会做的事情。”

我对电广最看好的一点，就是电广的工程师永远知道自己要追赶的目标，并且电广也为他们提供了足够广阔的平台来施展。让我意外的是电广传媒并不是去年才意识到AI 的前景，而是在2021年就开始关注AI领域的投资机会，果断出手，现在已经投资了40多家AI企业，包含基础，技术，应用的全方面布局。其中包含现在已经成长为领域巨头的PIX和清华智谱清言。这份远见卓识和魄力在大A几乎属于独一份了。现在kimi的爆火几乎预示着国产应用领域遍地开花的格局马上来到，电广就是风口上的龙，是龙不是猪，因为电广已经在AI领域，从当年的小弱成长为现在的巨龙。

还记得前两周有个朋友发过一个这样的朋友圈

我想说，在文生视频领域，等待sora开源的绝对没有pix ，因为他们从一开始就走在正确的路上。这是在中国，我见过听说过的无数互联网团队里，和米忽悠一样，注定要做成大事的团队之一。现在电广传媒经历了近乎八年的底部横盘，正是要再次进入人们视野的时候。

我们可以预见的是，2024年电广传媒就可以一飞冲天，毕竟AI相关应用的爆发就在今年。“时来天地皆同力，运去英雄不自由”。过去八年电广传媒时运不济，在波折中前行，2024年时运来到，该轮到电广传媒一飞冲天了。

电广传媒——开始就走在正确的路上：还未被发现的中国sora。AI应用浪潮的真正宝藏。

作者：龙龙向前冲

全部讨论