为什么谷歌AI Overviews会给出离谱答案?或因采取统计计算来生成答案

发布于: 雪球转发:0回复:0喜欢:0

当谷歌本月早些时候宣布推出人工智能搜索功能时,该公司承诺“谷歌将替你完成谷歌搜索。”

这项名为“人工智能概述”(AI Overviews)的新功能将提供人工智能生成的简短摘要,在搜索结果页面的顶部突出显示关键信息和链接。

不幸的是,人工智能系统天生就不可靠。AI Overviews 在美国上线的几天内,用户们在社交媒体上分享了许多令人啼笑皆非的案例。

它建议用户在披萨中添加胶水或每天至少吃一块小石头。

它还声称美国前总统安德鲁·约翰逊(Andrew Johnson)在 1947 年至 2012 年间获得了大学学位,但他早在 1875 年就去世了。

当地时间 5 月 30 号,谷歌搜索主管利兹·瑞德(Liz Reid)表示,该公司一直在对该系统进行技术改进,以降低其产生错误答案的可能性,包括更好地检测无意义查询的机制。

该公司还限制了在回应中包含讽刺、幽默和用户生成的内容,因为这些信息可能会导致误导性建议。

但为什么 AI Overviews 会返回不可靠、可能存在危险的信息?有什么办法可以解决这一问题呢(如果有的话)?

为了理解为什么人工智能搜索引擎会出错,我们需要看看它们是如何工作的。

我们知道,AI Overviews 使用的是生成式人工智能模型 Gemini 的一个版本。

Gemini 是谷歌的大型语言模型(LLM,large language models)家族,并为谷歌搜索进行了定制。

该模型已与谷歌的核心网络排名系统集成,旨在从其网站索引中提取相关结果。

大多数大型语言模型只是在预测序列中的下一个单词(或 token),这使它们生成的内容看起来很流畅,但同时也使它们容易编造虚假信息。

它们没有真实信息作为证据,而是纯粹根据统计计算来选择每个单词。

这会导致“幻觉”。美国华盛顿大学专门研究在线搜索的教授奇拉格·沙阿(Chirag Shah)表示,AI Overviews 中的 Gemini 模型很可能是通过使用一种名为检索增强生成(RAG,retrieval-augmented generation)的人工智能技术来解决这一问题的。

该技术允许大模型检查其训练数据之外的特定(信息)来源,例如某些网页。

(来源:SARAH ROGERS/MITTR)

一旦用户输入查询信息,该系统就会根据构成系统信息源的文档进行检查,并生成响应。

因为它能够将原始查询与网页的特定部分相匹配,所以它能够给出答案的引用来源,这是普通大模型无法做到的。

检索增强生成技术的一个主要优点是,它对用户查询生成的响应应该比仅基于训练数据生成答案的典型模型的响应更及时、更准确、更相关。这种技术经常被用来防止大模型产生“幻觉”。

谷歌发言人没有证实 AI Overviews 是否使用了检索增强生成技术。

而检索增强生成技术并非完美无缺。为了让使用该技术的大模型得出一个好的答案,它必须正确地检索信息并正确地生成响应。

当这两个步骤中的一个或全都失败时,模型就会给出一个糟糕的答案。

AI Overviews 推荐在披萨里加入胶水的回应,源自于 Reddit 论坛上的一篇搞笑回帖。

该帖子很可能与用户一开始提到的如何解决奶酪不粘在披萨上的查询有关,但在检索过程中出现了问题。

仅仅因为内容是相关的并不意味着它是正确的,这个过程的信息生成步骤并不会质疑这一点。

同样,如果检索增强生成系统遇到相互冲突的信息,如老版和新版的政策手册,它将无法确定从哪个版本中获取信息并构建响应。

它可能会将两者的信息结合起来,产生一个潜在的误导性答案。

荷兰莱顿大学专门研究自然语言处理的教授苏珊·韦伯恩(Suzan Verberne)说:“大型语言模型会根据你提供的信息来源生成流利的回复,但流利的回复与正确的信息不同。”

她说,一个主题越具体,在大型语言模型的输出中出现错误信息的几率就越高。

并补充道:“这个问题不仅出现在医学领域,也出现在教育领域和科学领域。”

谷歌发言人表示,在许多情况下,当 AI Overviews 返回错误答案时,是因为网络上没有太多高质量的信息可供显示,或者是因为用户查询的东西与讽刺网站或搞笑帖子最匹配。

这位发言人表示,AI Overviews 在绝大多数情况下都提供了高质量的信息,许多错误案例都是针对不常见的查询。

其补充说,AI Overviews 在回复中包含有害、淫秽或其他不可接受内容的概率是 700 万分之一,即每 700 万个独特查询会导致一个糟糕的回复。

其还表示,会继续根据其内容政策删除某些查询的 AI Overviews。

尽管“披萨胶水”的错误很好地展示了 AI Overviews 如何指向不可靠来源,但该系统也可能从事实正确的来源产生错误信息。

美国新墨西哥州圣达菲研究所的人工智能研究员梅兰妮·米切尔(Melanie Mitchell)搜索了“美国有多少位穆斯林总统?”

AI Overviews 回应道:“美国有一位穆斯林总统,巴拉克·侯赛因·奥巴马(Barack Hussein Obama)。”

巴拉克·奥巴马不是穆斯林,因此 AI Overviews 的回应是错误的,但它是从一本名为《巴拉克·侯赛因·奥巴马:美国第一位穆斯林总统?》的书中提取到的信息。

因此,人工智能系统不仅没有抓住文章的全部要点,而且以与预期完全相反的方式对其进行了解释。

人工智能有几个问题;一个是找到一个不是玩笑的好的信息来源,另一个是正确地解释消息来源。

这是人工智能系统很难做到的事情,重要的是要注意,即使它得到了一个好的信息来源,它仍然会出错。

最终,我们会知道人工智能系统是不可靠的,只要它们使用概率逐字逐句地生成文本,就总会有出现“幻觉”的风险。

虽然随着谷歌做出调整,AI Overviews 可能会有所改进,但我们永远无法确定它是否会 100% 准确。

该公司表示,它正在为 AI Overviews 添加触发限制,如果对查询没有太多帮助的话,并为与健康相关的查询添加了额外的“触发改进”。

韦伯恩说,该公司可以在信息检索过程中增加一个步骤,用于标记有风险的查询,并让系统在这些情况下拒绝生成答案。

谷歌发言人表示,该公司的目标不是显示危险话题或脆弱状况的 AI Overviews。

从人类反馈中进行强化学习等技术,将这种反馈纳入大模型的训练中,也有助于提高其答案的质量。

同样,大模型可以针对无法回答的问题进行专门训练。在生成答案之前,让它们仔细评估检索到的文档的质量也很有用,因此正确的指导很有帮助。

尽管谷歌在 AI Overviews 的答案中添加了一个标签,上面写着“生成式人工智能是实验性的”,但它应该考虑让人们更清楚地知道该功能正在测试中,并强调它还没有准备好提供完全可靠的答案。

“它现在还是测试版,而且还会持续一段时间,在它不再是测试版之前,它应该是一个选项,而不应该作为核心搜索的一部分强加给用户。”沙阿说。

支持:Ren

排版:希幔

01/ 剑桥团队制备新型神经袖套,实现最小侵入性外周神经接口,助力治疗神经疾病和假肢控制

02/多团队联合攻关设计量子效应掺杂范式,研发p型场效应晶体管,突破二维平面晶体管集成维度限制

03/复旦团队基于机器学习开发原子模拟方法,揭示新的化学活性位点,推动原子级别的化学设计

04/川大团队研发高达15结的垂直腔面激光器,实现74%电光转换率,打破该领域长达二十年效率停滞局面

05/ 科学家研发新型印刷电路板,实现超90%的原料回收率,预计成本和传统印刷电路板相似