发布于: Android转发:0回复:0喜欢:0
来自 TheVerge 的一篇报道:字节跳动秘密使用 OpenAI 技术打造竞争产品
“他们只是不想暴露行踪。” 在激烈的生成式 AI 竞赛中,连业界巨头也在寻找捷径。
2023年12月15日
TikTok 的“为你推荐”功能魅力无比,使得其母公司字节跳动在全球范围内站在了 AI 领导者的位置。然而,现在这家公司在生成式 AI 竞赛中的表现却距离领先有一大段距离,以至于它不得不秘密地运用 OpenAI 的技术,以开发出自家的大语言模型,以此来与市场上的其他大语言模型竞争。
在 AI 界,这样的做法备受非议。这还直接违反了 OpenAI 的服务条款中的一项规定,即禁止将其模型的输出用来“开发与我们的产品和服务有竞争关系的任何人工智能模型。” 字节跳动是通过购买 Microsoft 的 OpenAI 使用权来使用 OpenAI 的,但 Microsoft 也有着同样的规定。尽管如此,字节跳动在与我分享的内部文件中确认,他们有依赖 OpenAI API 在开发其基础大语言模型的各个阶段,包括训练和评估模型,这个模型被代号为 Project Seed。
涉及此事的员工深知其后果;我在字节跳动的内部沟通平台 Lark 上看到了他们讨论如何通过“数据脱敏”来掩盖这一行为的对话。这种滥用程度如此严重,以至于 Project Seed 的员工经常达到他们 API 使用的上限。
在 OpenAI 平台的早期阶段,Project Seed 计划的使用更为大胆。几个月前,字节跳动命令其团队停止在模型开发的任何阶段使用 GPT 生成的文本,这一指示来自内部文件。就在这个时期,该公司在中国获得了监管批准,通过一个叫做 Doubao 的聊天机器人平台发布 Project Seed。
然而,据我了解,这个 API 依旧在违反 OpenAI 和 Microsoft 的服务条款中被使用,其中包括评估字节跳动在 Doubao 背后的模型性能。一位对字节跳动内部情况有直接了解的人表示:“他们声称要确保一切合法,但实际上他们只是不想被发现。”
对于本故事中提及的详细事实,字节跳动的发言人 **Jodi Seth** 表示,在 Project Seed 的初期开发中,确实使用了 GPT 生成的数据来标注模型,并在今年中期左右将其从训练数据中移除。“字节跳动得到了 Microsoft 的授权,可以使用 GPT API,”她在声明中说。“我们在非中国市场利用 GPT 支持我们的产品和特性,但在中国市场,则是使用我们自研的模型来支持 Doubao。”
“像 Azure OpenAI 服务这样的 Microsoft AI 解决方案属于我们的有限访问框架的一部分,意味着所有客户都必须申请并得到 Microsoft 的批准,”Microsoft 的发言人 **Frank Shaw** 在一份声明中说。“我们还制定了标准,并提供资源帮助客户负责任地使用这些技术,并符合我们的服务条款。我们有流程来检测滥用,并在发现违反行为准则的公司时,将停止他们的访问权限。”
***更新 12月15日,下午6:40东部时间:*** 在这篇报道发布后,OpenAI 的发言人 **Niko Felix** 向我确认,字节跳动的账户已被暂停使用:“所有使用我们 API 的客户必须遵守我们的使用政策,确保技术被用于正当目的。尽管字节跳动对我们的 API 使用很少,但我们正在进一步调查期间已暂停他们的账户。如果我们发现他们的使用不符合这些政策,我们将要求他们进行必要的调整,或终止他们的账户。”
虽然鲜少公开讨论,但小型公司普遍利用专有的人工智能模型,尤其是 OpenAI 的模型,来开发与之竞争的产品。由于 OpenAI 和 Microsoft 还没有以某个违规案例为鉴,这种做法目前仍处于法律上的灰色地带。“许多初创企业现在都在冒这个风险,”Databricks 的生成式 AI 副总裁 **Naveen Rao** 表示。
不过,从我在采访中了解到的情况来看,像 ByteDance 这样规模和资源雄厚的公司采取这种行为是极为罕见的。这似乎表明 Project Seed 团队面临着巨大的压力,必须迅速交付成果。“我经常收到 ByteDance 发来的招聘邮件,”一位在美国大型科技公司的 AI 研究员说,“我通常不予理会。但这件事让我想把这些邮件直接标为垃圾邮件。”
其他公司也遇到了类似的问题,担心自己的 GPT 输出被用来发展竞争对手。比如,Google 有研究员因为一些同事试图利用包含 ChatGPT 对话内容的网站数据而[选择辞职](网页链接)。这一事件并未涉及滥用 OpenAI 的 API,但在内部引起了不小的尴尬,涉事员工也受到了轻微的惩戒。
自从大约一年前 ByteDance 启动了 Project Seed,这个项目就成了一个高优先级且高度保密的任务。参与其中的员工需要签署特别的保密协议,项目内部的信息获取也变得愈发隔离。ByteDance 的亿万富翁联合创始人、前 CEO **张一鸣** 密切关注项目的进展。
Project Seed 目前主要研发两个产品:Doubao,这是一个已在中国上线的消费者聊天机器人平台(似乎在国外也[可以访问](网页链接));另一个是针对商业用户的聊天机器人平台,目前正在开发中,计划通过 ByteDance 的云服务部门销售。
虽然告知员工 Project Seed 的目标是为了像 OpenAI 那样,最终发展出通用人工智能(AGI),但其实质目标似乎更倾向于尽快成为中国版的 ChatGPT。该项目团队已被指令在今年年底之前实现与 GPT-3.5 相同的性能,并在 2024 年年中前达到 GPT-4 的水平。目前 Seed 模型的参数大约为 2000 亿,而 GPT-3.5 的参数为 1750 亿。(OpenAI 尚未公布 GPT-4 的参数数量。)
目前,Project Seed 与 TikTok 没有关联,主要在中国服务器上进行开发。团队成员大多位于中国,但也有驻美国的成员。项目的主导者是字节跳动搜索部门负责人 **Zhu Wenjia**,他向公司高级工程领导 **Yang Zhenyuan** 汇报工作。项目的其他关键领导人包括 **Qiao Mu**(隶属于 Wenjia)和负责应用机器学习团队的 **Xiang Liang**。
据我所知,OpenAI 正在研究如何识别其 API 输出以预防潜在的误用问题,但看来问题已经显露。目前还不清楚 ByteDance 的此类行为是否会加剧美中两国之间已经存在的紧张局势,两国都将 AI 视为国家安全的重要议题。
另一个引人关注的问题是,当大量的大语言模型(LLM)开始参与构建其他 LLM 时,网络信息质量会发生何种变化。由于这些基础模型本身就是在非真实、人工制造的数据上训练的,用它们来构建更多 LLM 可能会进一步放大错误信息的传播。正如 Databricks 的 **Rao** 向我表述的那样:“这最终可能导致我们与现实世界的脱节。”
网页链接
国内这样得抓一半以上
$中际旭创(SZ300308)$ $华工科技(SZ000988)$ $赛力斯(SH601127)$