聊着聊着 AI 突然 ” 失忆 ”,相信很多人遇到过
你和 AI 聊了十几轮,突然它问了一句 ” 你前面说什么来着?” 那一瞬间你是不是很想摔手机?
这其实就是上下文 Token 用完了。今天详细聊聊上下文 Token 对对话的重要性。

什么是上下文 Token?
简单说,就是 AI 一次对话中能处理的最大 Token 数量。
可以理解为 AI 的 ” 工作记忆 ”
就像人的工作记忆有限,AI 处理对话也有上限。这个上限就是上下文窗口。
包含两部分
• 你说的所有内容(输入)
• AI 回复的所有内容(输出)
两者加在一起,不能超过上限。
不同模型的上下文大小
GPT 系列
• GPT-3.5:4K(约 3000 字)
• GPT-3.5 Turbo 16K:16K
• GPT-4:8K(约 6000 字)
• GPT-4 Turbo:128K(约 10 万字)
Claude 系列
• Claude 2:100K
• Claude 3:200K
国产模型
• 文心一言:8K-32K
• 通义千问:8K-128K
• Kimi:200K

上下文 Token 如何影响对话?
对话连贯性
上下文越大,AI 能记住越多对话内容,对话越连贯。
上下文太小,聊几句就 ” 失忆 ” 了。
长对话处理
写长文章、分析长文档时,需要足够大的上下文。
否则写到一半就被截断,或者需要分段处理。
复杂任务
需要参考大量背景信息的任务,上下文越大越好。
上下文用完会怎样?
早期内容被遗忘
AI 只能记住最近的内容,早期对话被 ” 挤 ” 出去了。
回答质量下降
因为缺少上下文,AI 的回答可能前后矛盾。
直接报错
有些 API 会返回 ”max tokens exceeded” 错误。
如何充分利用上下文?
技巧一:选择大上下文模型
需要长对话时,用 GPT-4 Turbo 或 Claude。
技巧二:适时开启新对话
话题变了就开新对话,别在一个对话里聊所有。
技巧三:主动精简
让 AI 总结之前的要点,开启新对话继续。
技巧四:分段处理
长内容分成多段,分别处理。
常见问题
Q:上下文越大越好吗?
A:看需求。日常对话 4K-8K 够用,需要处理长文档再选大的。
Q:为什么大上下文模型更贵?
A:计算量更大,需要更多硬件资源。
Q:能扩展上下文吗?
A:不能,这是模型架构决定的。
总结
上下文 Token 就是 AI 的 ” 工作记忆 ”,决定了能同时处理多少内容。
上下文越大,对话越连贯,能力越强。
但也要根据需求选择,够用就行。
日常使用 8K-16K 足够,需要长文档处理再选更大的。
