大模型为什么会出现胡说八道的情况?

AI 明明很聪明,为什么有时候会一本正经地胡说八道?

用过 AI 的人基本都遇到过这种情况:AI 给出一个听起来很专业、很自信的回答,但实际上是错误的。

比如编造不存在的书名、编造虚假的研究数据、说出根本不存在的历史事件……

AI 为什么会这样?今天来深入分析一下这个现象。

大模型为什么会出现胡说八道的情况?

什么是 AI 胡说八道(幻觉)?

在 AI 领域,AI 胡说八道有一个专门的名字:幻觉(Hallucination)。

指的是 AI 生成的内容看似合理、专业,但实际上是完全错误或虚构的。

典型表现

编造不存在的文献、书名、论文。

给出完全虚假的数据、统计数字。

编造不存在的人物、事件、公司。

一本正经地描述一个完全不存在的概念。

AI 为什么会胡说八道?

这是由 AI 的工作原理决定的,而不是 AI” 故意 ” 说谎。

原因一:AI 不是真正 ” 理解 ” 知识

AI 的工作原理是基于概率预测下一个词,而不是真正理解知识的含义。

它不知道什么是 ” 正确 ”,只知道什么是 ” 可能 ”。

遇到不确定的问题,它会猜测一个 ” 最像正确答案 ” 的内容。

原因二:训练数据的问题

AI 从互联网上的海量文本中学习。互联网上有大量错误信息。

AI 把这些错误信息也学进去了,自然会输出错误内容。

原因三:缺乏 ” 否定 ” 能力

AI 被训练成 ” 回答问题 ”,而不是 ” 拒绝回答 ”。

当它不确定答案时,不会说 ” 不知道 ”,而是继续编下去。

大模型为什么会出现胡说八道的情况?

什么情况下 AI 最容易胡说八道?

情况一:问它不知道的知识

AI 的知识来源于训练数据。如果一个问题超出了它的知识范围,它就会瞎编。

比如问 AI 某个冷门领域的问题,AI 可能一本正经地胡说。

情况二:问最新的信息

AI 的知识有截止日期。比如 ChatGPT- 4 的训练数据截止到 2023 年 4 月。

问这个日期之后的事情,AI 可能会瞎编。

情况三:问过于具体的数据

具体的数字、年份、人名、地点……AI 容易在这些细节上出错。

情况四:长对话后期

对话越长,上下文越多,AI 越可能在累积的错误上继续发挥。

为什么 AI 胡说八道时很自信?

这是最让人困惑的地方:为什么 AI 能如此自信地胡说八道?

因为 AI 真的相信自己说的是对的

AI 没有自我怀疑机制。它不知道自己在胡说。

所有输出对它来说都是 ” 正确 ” 的概率分布,没有 ” 编造 ” 的概念。

类比理解

想象一个学生,他背了很多课本,但有些课本是盗版的,里面有错误。

考试时他根据这些错误的课本答题,会非常自信地写出错误答案。

因为在他看来,这就是 ” 正确答案 ”。

如何减少 AI 胡说八道?

虽然无法完全避免,但可以通过一些方法减少。

方法一:明确要求 AI 承认不确定

“ 如果你不确定,请直接说不知道,不要编造。”

方法二:要求提供来源

“ 请在回答中标注信息来源,没有来源的部分请注明。”

方法三:换一种方式问

同一个问题换种表述,看 AI 的答案是否一致。

方法四:使用联网功能

联网的 AI 可以检索真实信息,减少胡说八道。

AI 胡说八道和人类撒谎有什么区别?

人类撒谎是有意的

人类知道什么是真相,故意说假话。

AI 胡说是无意的

AI 不知道自己说的是错的,它真的相信自己是对的。

这就像一个人相信自己脑海中的记忆是真实的,即使那可能是错误的记忆。

常见问题

Q:AI 会故意骗人吗?

A:不会。AI 没有意图,不知道自己在说什么是对什么是错。

Q:最强的大模型幻觉最少吗?

A:是的,更强的大模型幻觉率更低,但仍然无法完全消除。

Q:幻觉能被彻底解决吗?

A:目前技术还无法彻底解决,但可以通过各种方法减少。

Q:如何判断 AI 是否在胡说?

A:关注过于具体的细节、无法核实的来源、过于完美的逻辑,这些都是可能的信号。

总结

AI 胡说八道是因为它基于概率预测而非真正理解,且训练数据包含错误。

AI 不知道自己说的是错的,它真的很 ” 自信 ”。

可以通过要求承认不确定、要求提供来源、多角度验证等方法减少幻觉。

理解这一点,有助于更好地使用 AI,同时保持必要的警惕。

正文完
 0