作为美国微软内部人士谈谈ChatGPT

发布于: Android转发:60回复:25喜欢:189

该文来自北大校友:

我去年在西雅图微软, 而且就在负责开发 Bing 后台一部分算法的 WebXT 组, 后来因为个人原因离职了. 作为了解 ChatGPT 和新 Bing 部分内幕的底层码农, 以及 GPT-3 和 Codex 的第一批公测用户,我来谈谈对 ChatGPT 的看法.

1. ChatGPT 的算法, 包括自回归语言模型 (OpenAI 从 2017 年的 GPT-1 搞到现在, 迭代了 3.5 代了), 还有强化学习的 PPO 算法 (还记得 2018 年在 TI 表演赛上击败 OG 的 Dota2 AI 吗? 就是用这个算法训练的), 全都是已经十分成熟的公开算法, 本身没有任何秘密可言. 但是这种超大规模训练, 并不止依靠算法本身, 硬件和数据才是王道. 纯自然语言数据, 网上公开的到处都是, 也没有什么门槛. 但是 ChatGPT 有一个巨大的先发优势,就是他通过抢先开始公测,收集了大量的用户的使用数据,这是更加宝贵的数据,而这部分数据只有他们家有。只要 ChatGPT 仍然是最好用的语言 AI ,这个雪球只会越滚越大,越来越难追上。另外,为了防止 ChatGPT 输出有害信息,OpenAI 还花了大价钱去找印度和肯尼亚的外包公司标记了大量的有害文本,用来训练模型不要输出有害信息,这部分数据也是 OpenAI 积淀了几年筑起的数据壁垒。总之,小公司根本做不了 ChatGPT 这样的工程,凡是声称投资区区几亿就要做 ChatGPT 这样的 AI 的,几乎可以认为全是诈骗;真正有可能做出类似产品的,在中国只有 BAT 这种拥有自主云计算平台 (市场价租机器做这个就等着破产吧)、且掌握大量用户的互联网公司,而且最好是和 ChatGPT 错位竞争,比如做中国可以正常联网使用的中文模型;并且,其中最困难的部分其实是敏感词屏蔽和有害信息过滤(ChatGPT 的屏蔽程度,在国内恐怕是不够的,因为它仍然可能在用户恶意诱导下说出不该说的东西)

2. 再来简单聊聊微软。很多华人,都觉得微软低效是因为印度人太多,尤其是因为印度人做了CEO。但是这种言论是错误的。从 ChatGPT 这件事中就能看出微软现任 CEO Satya Nadella 的眼界。首先,当时 OpenAI 缺钱、且做出来的东西都是 Dota2 AI 这种不能赚钱的东西,马斯克都甩手不干的时候,微软仍在默默地投钱、给机器。去年我还在 WebXT 组的时候就听说 CEO 有意向在 Bing 用 OpenAI 的新模型,把我们吓得不轻。后来就听说 WebXT 组停了好多项目,开了好多人,把几乎所有机器都借给 OpenAI 了。因为 CEO 想拨款买新机器给 OpenAI 用,遭到很多利益相关的反对,尤其是 CFO 不给批,于是只好绕过 CFO 抽调微软原本用于研发的机器;这样 WebXT 人多,机器少,很多研发人员干不了活,正好再裁了这些 “多余” 的研发人员。后来的事情,大家都知道了:这个 OpenAI 的 “新模型” ,它的名字叫做 ChatGPT,而且火速上了 Bing 。虽然我以前所在的 WebXT 组是这个事件中的最大受害者,但是如果作为旁观者,我的确十分佩服 Satya Nadella 的眼界。

3. 有人说,ChatGPT 会面临 Google 的竞争,Google 的搜索引擎仍然是最好用的,Google 的用户是全世界最多的,Google 的自然语言 AI 技术也是领先的,所以完全可以等 Google 出竞品,也能做得很好,所以不必唱衰 Google 。这里的论据都是对的,但是最后一步论证 “所以不必唱衰 Google” 这步,没那么简单。我看了最近一个 Satya Nadella 的访谈,他的大概意思是,ChatGPT 的技术,头部科技公司迟早都会掌握,包括 Google;但是 ChatGPT 的推断成本高昂,而且消耗的算力与用户体验高度正相关;而搜索引擎用户粘度小,用户永远会去用体验最好的那个;所以这会迫使所有科技公司搞军备竞赛,大幅推高搜索算法的成本,使得 Google 赖以生存的搜索广告业务再也无法躺着赚钱;但是微软的营收却更加多元化,因此受到的冲击会更小,却能享受到 Edge 浏览器、甚至 Windows 系统市场份额增加的好处。很多人还在想第一层第二层,人家 Satya 已经想到了第五层了。说的直白一点,现在微软就是开启了大模型军备竞赛,想要卷死 Google。当然这并不是 “内卷”,毕竟用户的使用体验提升了。

$谷歌A(GOOGL)$ $微软(MSFT)$ $浪潮信息(SZ000977)$

精彩讨论

松杨投资2023-02-17 19:10

完全可能呀!比如大陆ai和非大陆ai

knife9112023-02-18 08:00

微信聊天数据无敌,估计腾讯的AI做出来会被第一时间用于网络诈骗 撒个娇、卖个萌,然后让你老老实实转账。

老秘书2023-02-17 23:25

跳个大神,国内版本应该是$腾讯控股(00700)$ 当先

松杨投资2023-02-17 18:45

完全有可能,Google仍是世界上最强大的搜索引擎公司,AI能力也名列前茅,拥有的原始数据也是最完善的(中文除外),不过因为ChatGPT先出来,所以和用户实战方面的数据落后了。乾坤未定,AIGC领域仍风云变幻。

心无所住ZH2023-02-17 18:51

所以这个世界不能同时存在两个聊天ai?

全部讨论

2023-02-17 23:25

跳个大神,国内版本应该是$腾讯控股(00700)$ 当先

2023-02-17 18:51

所以这个世界不能同时存在两个聊天ai?

2023-02-17 16:34

有一定道理,但谷歌也并非只有只搜索。#FAAMG# #AI#

2023-02-17 23:29

我大A有茅台就行了

2023-02-18 08:21

ChatGPT的道德伦理、信息安全问题,以及在国内应用的内容安全风险,恐怕是这项基础设施广泛应用最大的隐患

2023-02-17 21:45

👍

2023-02-17 19:38

这种看法狭隘了,从58年开始发展至今,当年ibm也曾认为自己是先驱,而现在所谓的深度学习也仅仅是一个过渡阶段,只是一种算法和方式的改变,未来还会有更优的算法。

2023-02-17 18:17

有道理,但谷歌有无可能研发出新的更先进的算法?

2023-03-01 20:05

我去年在西雅图微软, 而且就在负责开发 Bing 后台一部分算法的 WebXT 组, 后来因为个人原因离职了. 作为了解 ChatGPT 和新 Bing 部分内幕的底层码农, 以及 GPT-3 和 Codex 的第一批公测用户,我来谈谈对 ChatGPT 的看法.

1. ChatGPT 的算法, 包括自回归语言模型 (OpenAI 从 2017 年的 GPT-1 搞到现在, 迭代了 3.5 代了)
1.作者不在chatgpt组,只是相关的webxt组(改组还被撤了)
2.作者公测了gpt3,而chatgpt现在是3.5
那么如何就断定,ChatGPT用的是 无秘密可言的公开算法?

2023-02-17 23:23

华人好醋,卷不过印度人就造谣了,搞个现代版陈世美们?呵呵