从字节跳动被OpenAI封号，看大模型脆弱的护城河原创憨姆斯特憨姆斯特学习笔记 2023-12-16 15:09 发...

原创憨姆斯特憨姆斯特学习笔记 2023-12-16 15:09 发表于北京

大家好，今天是吃瓜的憨憨。

今天上午，一则新闻悄悄在AI圈传开。发生啥事呢？OpenAI要封字节跳动的OpenAI账号！

给不熟悉AI的同学打个比方，这相当于什么呢，相当于腾讯注册了网易游戏的《蛋仔派对》账号且充钱买皮肤，结果网易说怀疑你抄我的游戏，给腾讯封号了。

你问我《蛋仔派对》是啥？啊这。。那新游戏《元梦之星》的广告总该看到了吧？扯远了，让我们说回今天的八卦。

简单说就是OpenAI怀疑字节跳动抄袭。我知道看官的第一反应会是字节真不行，技术道德都不行。但是等一等？真的是这样吗，跟着憨憨一起来看一看。

据外媒TheVerge报道，字节跳动在利用OpenAI的GPT模型API，训练自己的大语言模型。这件事被OpenAI发现了，于是OpenAI宣布暂停了字节跳动的账户使用权。

后续TheVerge记者还附上了来自OpenAI发言人的声明，大意为：任何API用户都需要遵守使用规则。字节跳动的API用量很小，但是OpenAI决定暂停他们的使用，并展开调查。如果发现字节跳动确实违反使用规则，将终止账户使用权限。

给不熟悉AI的同学先科普一下知识背景，AI行业大语言模型的训练通常分为两个阶段：

第一阶段是预训练阶段，预训练就用全网爬虫的数据，比如百度百科、电子书等等数据，作为训练素材，教会AI“识字”。

第二阶段是微调训练阶段。主要是要让AI的行为符合它的工作场景。比如chatGPT是一个对话场景，就要通过一些聊天记录作为示范，训练chatGPT学会聊天的方式。如果不做微调训练，chatGPT可能默认就是百度百科或者电子书的文风。

这两个阶段的训练量大家应该要有个概念，从训练数据量角度，微调训练大概只有预训练的千万分之一到百万分之一。

随着chatGPT效果得到认可，一种新的微调训练方案开始兴起，就是所谓“合成数据”方案，也就是用现有的优秀模型（例如chatGPT）生成的聊天记录，作为微调训练的训练数据，训练新的模型。

这次OpenAI就是怀疑字节跳动用GPT模型的聊天数据，训练字节自己的模型。

这种做法确实业内是很常见的，OpenAI自己就是这样来训练下一代模型，微软也在用这样的方法，还发过paper呢，憨憨曾经介绍过微软的做法：解读微软Orca论文，或与Q*异曲同工。还有大量研究人员，都会在自己的研究中用到OpenAI的合成数据。谁让OpenAI的模型目前遥遥领先呢？

问题是，这次OpenAI的封号行为让我隐隐觉得有些反感。因为OpenAI并不完全禁止用户从它的API获取合成数据，有关条款是这样说的：

大意是不准用OpenAI模型的输出来开发直接竞品，但是允许用户开发分类模型、嵌入模型等不直接与OpenAI产品竞争的模型。

虽然字节跳动很有可能确实在训练自己的大语言模型，但是，OpenAI实际上是很难证明字节跳动的用量是用在竞品开发上的。更何况，OpenAI发言人也说了，字节只有“少量”“minimal”用量。少量用量能说明什么呢？

基本上，OpenAI是觉得“有嫌疑”就把字节封号了，而且不太尊重客户隐私，把这件事捅给了媒体。

在我看来，这真的是一件糟糕的事。

字节跳动至少截至目前，并没有提供商业竞品。他们的短视频服务与chatGPT的服务也大相径庭。字节要对OpenAI构成竞争威胁，还八竿子打不着，这么着急针对字节，要么说明了OpenAI内部有民族主义情绪，要么就说明OpenAI的护城河还真的不深。

也许护城河真成问题。

就拿金主爸爸微软发的Orca论文来说，利用OpenAI的合成数据做微调训练，就让一个130亿参数的模型达到了chatGPT 3.5的水平。

前面说过，合成数据一般只在微调训练阶段使用，而且用量相比预训练阶段微乎其微，但这一点微量，似乎就是在酱香拿铁里滴进去的一滴茅台，能产生质变。

要怎样理解企业的护城河？我认为，能躺着就不坐着，能坐着就不站着，这样都能挣钱，才叫有护城河。从这个角度，OpenAI还真不如酱香科技啊。

OpenAI必须保持快速迭代，才能始终做领头羊，稍有松懈，稍走一点弯路，可能就会被人追上。

商业竞争，绝不是把竞争对手账号封了就能胜出的。以AI产品目前的形态，封一两个号，可不太能阻止竞争对手获取合成数据。

比如说，憨憨今天还看到了另一个“嫌疑犯”。以下截图是憨憨亲测，在Poe平台上托管的Gemini Pro，脱口而出说自己是百度文心。

咱也不知道，是Gemini Pro用了文心的中文聊天记录做训练资料，还是Poe整了个文心API来糊弄我。

作者：驱熊人