AI 那么聪明,到底是怎么 ” 喂 ” 出来的?
ChatGPT 那么聪明,GPT- 4 那么强大,它们到底是怎么被训练出来的?
很多人对大模型训练很好奇,但又觉得太技术化看不懂。今天就用最通俗的语言,把大模型训练的过程讲清楚。

训练大模型需要什么?
在说训练过程之前,先说说训练大模型需要准备什么。
第一:海量数据
大模型需要学习大量的文本数据。ChatGPT 训练时用了互联网上的海量文本,包括网页、书籍、新闻、代码……几乎涵盖了人类所有能接触到的文字。
数据量有多大?GPT- 3 训练用了约 45TB 的文本数据。相当于阅读了数百万本书。
第二:超强算力
训练大模型需要海量的计算。GPT- 3 的训练据说用了上万张高端显卡,训练了好几个月。
这个过程消耗的电力,足够一个小型城市用一整年。
第三:算法和架构
有了数据和算力,还需要有人设计神经网络的结构和训练方法。这需要大量的科研人员。
大模型训练的两个阶段
大模型训练主要分为两个阶段:预训练和微调。
阶段一:预训练(Pre-training)
这个阶段占整个训练过程的绝大部分时间和资源。
目的:让模型学会语言的基本规律。
方法:让 AI 做 ” 完形填空 ”。给 AI 一段文字,盖住一部分,让它预测被盖住的是什么。
比如:” 今天的天气真___”,让 AI 预测空格应该填什么。
AI 一开始猜得很准,但随着训练的深入,它越来越能准确地预测。
这个阶段完成后,AI 就学会了语言的基本规律:语法、词汇、逻辑、甚至一些常识。
阶段二:微调(Fine-tuning)
预训练完成后,模型已经学会了语言规律。但它还不会 ” 听话 ”,回答可能不太友好。
微调的目的:让模型学会更好地回答问题,按照人类期望的方式输出。
方法:用人工标注的数据进行训练。比如给 AI 一些 ” 好问题 - 好回答 ” 的例子,让它学习什么样的回答是好的。

预训练的具体过程
详细说说预训练是怎么做的。
第一步:数据准备
从互联网上爬取海量文本。网页、书籍、新闻、论坛、代码……都是数据来源。
然后对数据进行清洗:去掉垃圾信息、标准化格式、去除敏感内容。
第二步:分词(Tokenization)
把文字转换成 AI 能处理的数字格式。这个过程叫做分词。
AI 不认识字,它只认识数字。所以要把文字转换成数字序列。
比如:” 苹果 ” 可能变成 [1024, 2048],” 香蕉 ” 变成 [3072, 4096]。
第三步:模型训练
准备好数据和分词后,就可以开始训练了。
让 AI 不断做 ” 完形填空 ”,猜被盖住的词是什么。
AI 猜错了,就调整内部参数;猜对了,就强化这个答案。
几十亿次训练之后,AI 变得越来越准确。
微调的具体过程
预训练让 AI 学会了语言规律,但还不会和人好好对话。
RLHF:人类反馈强化学习
这是目前最常用的微调方法。
第一步:让 AI 生成多个回答。
第二步:让人工对回答进行排序,哪个更好、哪个更差。
第三步:用这些排序数据训练一个 ” 奖励模型 ”,让 AI 知道什么样的回答是好的。
第四步:用强化学习的方法,让 AI 生成更多人类喜欢的回答。
这个过程叫做 RLHF(Reinforcement Learning from Human Feedback)。
训练一个大模型要花多少钱?
很多人好奇训练大模型的成本。
GPT- 3 的训练成本
据估算,GPT- 3 的训练成本约 460 万美元。这还只是训练一次的成本,加上实验、调参等,实际成本可能更高。
GPT- 4 的训练成本
更高。据估计超过 1 亿美元。
成本的主要来源
显卡算力:高端显卡每小时几美元,训练几个月累积下来就是天文数字。
电力消耗:服务器运行需要大量电力。
人力成本:科学家和工程师的工资。
数据成本:收集、清洗数据的成本。
训练一个模型要多久?
除了钱,时间也是重要成本。
小型模型
几亿参数的小模型,可能几天到几周就能训练完成。
中型模型
几十亿参数的模型,可能需要几周到几个月。
大型模型
几百亿参数的模型,可能需要几个月到一年。
超大型模型
像 GPT- 4 这样的模型,可能需要一年以上。
常见问题
Q:普通人能训练自己的大模型吗?
A:训练真正的大模型成本极高。但如果只是想微调现有模型,普通人可以做到。
Q:大模型训练一次就能成功吗?
A:不一定。很多时候需要多次实验,调整参数,才能得到好结果。
Q:大模型训练会一直持续吗?
A:基础模型训练是一次性的。但上线后会持续收集用户反馈,不断改进。
Q:训练数据越多越好吗?
A:质量和多样性同样重要。低质量数据可能反而降低模型效果。
总结
大模型训练分两个阶段:预训练让 AI 学会语言规律,微调让 AI 学会好好回答问题。
预训练需要海量数据和超强算力,成本高达数百万甚至数亿美元。
微调用人类反馈强化学习(RLHF),让 AI 的回答更符合人类期望。
虽然训练成本高昂,但训练好的模型可以被无数人使用,边际成本很低。
