先说个行业共识:数据决定了 AI 的上限
很多人只关注 AI 模型的参数量,7B、70B、100B。但实际上,训练数据的质量同样重要,甚至更重要。
同样的模型架构,喂不同的数据,效果天差地别。
今天就把 AI 训练数据这件事讲清楚。

训练数据的来源
公开互联网数据
网页、文章、博客、论坛帖子等。这是最主要的来源。
优点:数据量大、覆盖面广。
缺点:质量参差不齐,可能包含错误信息、偏见内容。
书籍和文献
电子书、学术论文、专业文献。高质量数据来源。
优点:内容权威、语言规范。
缺点:版权问题、数量有限。
代码仓库
GitHub 等平台的代码。用于训练代码能力。
优点:格式规范、逻辑清晰。
缺点:代码质量差异大,可能包含 bug。
专业数据集
专门构建的高质量数据集,如维基百科、Common Crawl。
优点:质量可控、有标注。
缺点:成本高、规模有限。

数据标注的重要性
预训练阶段用海量无标注数据,但微调和对齐阶段需要高质量标注数据。
谁在标注?
• 专业标注团队
• 众包平台(如 Amazon Mechanical Turk)
• AI 辅助标注
标注什么?
• 分类标签:这篇文章属于哪个类别
• 质量评分:这个回答好不好
• 偏好排序:A 和 B 哪个更好
• 安全标注:这个内容有没有问题
标注质量直接影响模型效果。错误的标注会 ” 教坏 ” 模型。
数据质量如何影响 AI?
数据量
数据越多,模型能学到的东西越多。但到一定程度后,边际效益递减。
数据质量
高质量数据比大量低质量数据更有价值。100 万条优质数据,可能比 1 亿条垃圾数据效果更好。
数据多样性
数据要覆盖各种场景、各种风格。单一来源的数据会导致模型偏见。
数据时效性
旧数据不包含新知识。模型的知识截止日期就是训练数据的最新时间。
训练数据的安全问题
隐私泄露
训练数据可能包含个人信息。模型可能 ” 记住 ” 并泄露这些信息。
版权争议
训练数据未经授权使用版权内容,可能引发法律纠纷。
数据投毒
攻击者故意污染训练数据,让模型学到错误的东西。
偏见传播
训练数据中的偏见会被模型学到,放大社会歧视。

常见问题
Q:为什么模型知识有截止日期?
A:因为训练数据有收集时间。训练完成后,模型不会自动学到新知识。
Q:可以用自己的数据训练模型吗?
A:可以。这叫微调。很多开源模型支持用私有数据微调。
Q:数据越多越好吗?
A:不一定。数据质量比数量更重要。垃圾数据会降低模型效果。
总结
训练数据决定了 AI 的能力和边界。
数据来源多样,质量和数量同样重要。
标注质量直接影响模型效果,安全问题不容忽视。
好的数据,是好 AI 的基础。
