AI 明明很聪明,为什么有时候会一本正经地胡说八道?
用过 AI 的人基本都遇到过这种情况:AI 给出一个听起来很专业、很自信的回答,但实际上是错误的。
比如编造不存在的书名、编造虚假的研究数据、说出根本不存在的历史事件……
AI 为什么会这样?今天来深入分析一下这个现象。

什么是 AI 胡说八道(幻觉)?
在 AI 领域,AI 胡说八道有一个专门的名字:幻觉(Hallucination)。
指的是 AI 生成的内容看似合理、专业,但实际上是完全错误或虚构的。
典型表现
编造不存在的文献、书名、论文。
给出完全虚假的数据、统计数字。
编造不存在的人物、事件、公司。
一本正经地描述一个完全不存在的概念。
AI 为什么会胡说八道?
这是由 AI 的工作原理决定的,而不是 AI” 故意 ” 说谎。
原因一:AI 不是真正 ” 理解 ” 知识
AI 的工作原理是基于概率预测下一个词,而不是真正理解知识的含义。
它不知道什么是 ” 正确 ”,只知道什么是 ” 可能 ”。
遇到不确定的问题,它会猜测一个 ” 最像正确答案 ” 的内容。
原因二:训练数据的问题
AI 从互联网上的海量文本中学习。互联网上有大量错误信息。
AI 把这些错误信息也学进去了,自然会输出错误内容。
原因三:缺乏 ” 否定 ” 能力
AI 被训练成 ” 回答问题 ”,而不是 ” 拒绝回答 ”。
当它不确定答案时,不会说 ” 不知道 ”,而是继续编下去。

什么情况下 AI 最容易胡说八道?
情况一:问它不知道的知识
AI 的知识来源于训练数据。如果一个问题超出了它的知识范围,它就会瞎编。
比如问 AI 某个冷门领域的问题,AI 可能一本正经地胡说。
情况二:问最新的信息
AI 的知识有截止日期。比如 ChatGPT- 4 的训练数据截止到 2023 年 4 月。
问这个日期之后的事情,AI 可能会瞎编。
情况三:问过于具体的数据
具体的数字、年份、人名、地点……AI 容易在这些细节上出错。
情况四:长对话后期
对话越长,上下文越多,AI 越可能在累积的错误上继续发挥。
为什么 AI 胡说八道时很自信?
这是最让人困惑的地方:为什么 AI 能如此自信地胡说八道?
因为 AI 真的相信自己说的是对的
AI 没有自我怀疑机制。它不知道自己在胡说。
所有输出对它来说都是 ” 正确 ” 的概率分布,没有 ” 编造 ” 的概念。
类比理解
想象一个学生,他背了很多课本,但有些课本是盗版的,里面有错误。
考试时他根据这些错误的课本答题,会非常自信地写出错误答案。
因为在他看来,这就是 ” 正确答案 ”。
如何减少 AI 胡说八道?
虽然无法完全避免,但可以通过一些方法减少。
方法一:明确要求 AI 承认不确定
“ 如果你不确定,请直接说不知道,不要编造。”
方法二:要求提供来源
“ 请在回答中标注信息来源,没有来源的部分请注明。”
方法三:换一种方式问
同一个问题换种表述,看 AI 的答案是否一致。
方法四:使用联网功能
联网的 AI 可以检索真实信息,减少胡说八道。
AI 胡说八道和人类撒谎有什么区别?
人类撒谎是有意的
人类知道什么是真相,故意说假话。
AI 胡说是无意的
AI 不知道自己说的是错的,它真的相信自己是对的。
这就像一个人相信自己脑海中的记忆是真实的,即使那可能是错误的记忆。
常见问题
Q:AI 会故意骗人吗?
A:不会。AI 没有意图,不知道自己在说什么是对什么是错。
Q:最强的大模型幻觉最少吗?
A:是的,更强的大模型幻觉率更低,但仍然无法完全消除。
Q:幻觉能被彻底解决吗?
A:目前技术还无法彻底解决,但可以通过各种方法减少。
Q:如何判断 AI 是否在胡说?
A:关注过于具体的细节、无法核实的来源、过于完美的逻辑,这些都是可能的信号。
总结
AI 胡说八道是因为它基于概率预测而非真正理解,且训练数据包含错误。
AI 不知道自己说的是错的,它真的很 ” 自信 ”。
可以通过要求承认不确定、要求提供来源、多角度验证等方法减少幻觉。
理解这一点,有助于更好地使用 AI,同时保持必要的警惕。
