封你号咋的,你不也封谷歌号吗
据外媒TheVerge报道,字节跳动在利用OpenAI的GPT模型API,训练自己的大语言模型。这件事被OpenAI发现了,于是OpenAI宣布暂停了字节跳动的账户使用权。
后续TheVerge记者还附上了来自OpenAI发言人的声明,大意为:任何API用户都需要遵守使用规则。字节跳动的API用量很小,但是OpenAI决定暂停他们的使用,并展开调查。如果发现字节跳动确实违反使用规则,将终止账户使用权限。
给不熟悉AI的同学先科普一下知识背景,AI行业大语言模型的训练通常分为两个阶段:
第一阶段是预训练阶段,预训练就用全网爬虫的数据,比如百度百科、电子书等等数据,作为训练素材,教会AI“识字”。
第二阶段是微调训练阶段。主要是要让AI的行为符合它的工作场景。比如chatGPT是一个对话场景,就要通过一些聊天记录作为示范,训练chatGPT学会聊天的方式。如果不做微调训练,chatGPT可能默认就是百度百科或者电子书的文风。
这两个阶段的训练量大家应该要有个概念,从训练数据量角度,微调训练大概只有预训练的千万分之一到百万分之一。
随着chatGPT效果得到认可,一种新的微调训练方案开始兴起,就是所谓“合成数据”方案,也就是用现有的优秀模型(例如chatGPT)生成的聊天记录,作为微调训练的训练数据,训练新的模型。
这次OpenAI就是怀疑字节跳动用GPT模型的聊天数据,训练字节自己的模型。
这种做法确实业内是很常见的,OpenAI自己就是这样来训练下一代模型,微软也在用这样的方法,还发过paper呢,憨憨曾经介绍过微软的做法:解读微软Orca论文,或与Q*异曲同工。还有大量研究人员,都会在自己的研究中用到OpenAI的合成数据。谁让OpenAI的模型目前遥遥领先呢?
问题是,这次OpenAI的封号行为让我隐隐觉得有些反感。因为OpenAI并不完全禁止用户从它的API获取合成数据,有关条款是这样说的:
大意是不准用OpenAI模型的输出来开发直接竞品,但是允许用户开发分类模型、嵌入模型等不直接与OpenAI产品竞争的模型。
虽然字节跳动很有可能确实在训练自己的大语言模型,但是,OpenAI实际上是很难证明字节跳动的用量是用在竞品开发上的。更何况,OpenAI发言人也说了,字节只有“少量”“minimal”用量。少量用量能说明什么呢?
基本上,OpenAI是觉得“有嫌疑”就把字节封号了,而且不太尊重客户隐私,把这件事捅给了媒体。
在我看来,这真的是一件糟糕的事。
字节跳动至少截至目前,并没有提供商业竞品。他们的短视频服务与chatGPT的服务也大相径庭。字节要对OpenAI构成竞争威胁,还八竿子打不着,这么着急针对字节,要么说明了OpenAI内部有民族主义情绪,要么就说明OpenAI的护城河还真的不深。
也许护城河真成问题。
就拿金主爸爸微软发的Orca论文来说,利用OpenAI的合成数据做微调训练,就让一个130亿参数的模型达到了chatGPT 3.5的水平。
前面说过,合成数据一般只在微调训练阶段使用,而且用量相比预训练阶段微乎其微,但这一点微量,似乎就是在酱香拿铁里滴进去的一滴茅台,能产生质变。
要怎样理解企业的护城河?我认为,能躺着就不坐着,能坐着就不站着,这样都能挣钱,才叫有护城河。从这个角度,OpenAI还真不如酱香科技啊。
OpenAI必须保持快速迭代,才能始终做领头羊,稍有松懈,稍走一点弯路,可能就会被人追上。
商业竞争,绝不是把竞争对手账号封了就能胜出的。以AI产品目前的形态,封一两个号,可不太能阻止竞争对手获取合成数据。
比如说,憨憨今天还看到了另一个“嫌疑犯”。以下截图是憨憨亲测,在Poe平台上托管的Gemini Pro,脱口而出说自己是百度文心。
咱也不知道,是Gemini Pro用了文心的中文聊天记录做训练资料,还是Poe整了个文心API来糊弄我。
封你号咋的,你不也封谷歌号吗
你还反感 你脸皮够厚 我要是openai 就检测每一个api的id流量异常状态 第一次警告 第二次封三天 第三次永封ip
只有外行才大惊小怪,搞ai的都知道这种做法叫知识蒸馏,是训练模型的常见做法。
A股继续炒作永不眠
说明大模型及数据等没有护城河了?$昆仑万维(SZ300418)$ $科大讯飞(SZ002230)$
从未见过去如此厚颜无耻的言论。
居然可以这样无耻下流
转发
外星人快来吧,人类已经自相残杀了
抄袭不是很正常的事吗?不是一直在抄吗?如果不让抄就往死里骂它!