大模型是怎么训练出来的?普通人也能看懂

AI 那么聪明,到底是怎么 ” 喂 ” 出来的?

ChatGPT 那么聪明,GPT- 4 那么强大,它们到底是怎么被训练出来的?

很多人对大模型训练很好奇,但又觉得太技术化看不懂。今天就用最通俗的语言,把大模型训练的过程讲清楚。

大模型是怎么训练出来的?普通人也能看懂

训练大模型需要什么?

在说训练过程之前,先说说训练大模型需要准备什么。

第一:海量数据

大模型需要学习大量的文本数据。ChatGPT 训练时用了互联网上的海量文本,包括网页、书籍、新闻、代码……几乎涵盖了人类所有能接触到的文字。

数据量有多大?GPT- 3 训练用了约 45TB 的文本数据。相当于阅读了数百万本书。

第二:超强算力

训练大模型需要海量的计算。GPT- 3 的训练据说用了上万张高端显卡,训练了好几个月。

这个过程消耗的电力,足够一个小型城市用一整年。

第三:算法和架构

有了数据和算力,还需要有人设计神经网络的结构和训练方法。这需要大量的科研人员。

大模型训练的两个阶段

大模型训练主要分为两个阶段:预训练和微调。

阶段一:预训练(Pre-training)

这个阶段占整个训练过程的绝大部分时间和资源。

目的:让模型学会语言的基本规律。

方法:让 AI 做 ” 完形填空 ”。给 AI 一段文字,盖住一部分,让它预测被盖住的是什么。

比如:” 今天的天气真___”,让 AI 预测空格应该填什么。

AI 一开始猜得很准,但随着训练的深入,它越来越能准确地预测。

这个阶段完成后,AI 就学会了语言的基本规律:语法、词汇、逻辑、甚至一些常识。

阶段二:微调(Fine-tuning)

预训练完成后,模型已经学会了语言规律。但它还不会 ” 听话 ”,回答可能不太友好。

微调的目的:让模型学会更好地回答问题,按照人类期望的方式输出。

方法:用人工标注的数据进行训练。比如给 AI 一些 ” 好问题 - 好回答 ” 的例子,让它学习什么样的回答是好的。

大模型是怎么训练出来的?普通人也能看懂

预训练的具体过程

详细说说预训练是怎么做的。

第一步:数据准备

从互联网上爬取海量文本。网页、书籍、新闻、论坛、代码……都是数据来源。

然后对数据进行清洗:去掉垃圾信息、标准化格式、去除敏感内容。

第二步:分词(Tokenization)

把文字转换成 AI 能处理的数字格式。这个过程叫做分词。

AI 不认识字,它只认识数字。所以要把文字转换成数字序列。

比如:” 苹果 ” 可能变成 [1024, 2048],” 香蕉 ” 变成 [3072, 4096]。

第三步:模型训练

准备好数据和分词后,就可以开始训练了。

让 AI 不断做 ” 完形填空 ”,猜被盖住的词是什么。

AI 猜错了,就调整内部参数;猜对了,就强化这个答案。

几十亿次训练之后,AI 变得越来越准确。

微调的具体过程

预训练让 AI 学会了语言规律,但还不会和人好好对话。

RLHF:人类反馈强化学习

这是目前最常用的微调方法。

第一步:让 AI 生成多个回答。

第二步:让人工对回答进行排序,哪个更好、哪个更差。

第三步:用这些排序数据训练一个 ” 奖励模型 ”,让 AI 知道什么样的回答是好的。

第四步:用强化学习的方法,让 AI 生成更多人类喜欢的回答。

这个过程叫做 RLHF(Reinforcement Learning from Human Feedback)。

训练一个大模型要花多少钱?

很多人好奇训练大模型的成本。

GPT- 3 的训练成本

据估算,GPT- 3 的训练成本约 460 万美元。这还只是训练一次的成本,加上实验、调参等,实际成本可能更高。

GPT- 4 的训练成本

更高。据估计超过 1 亿美元。

成本的主要来源

显卡算力:高端显卡每小时几美元,训练几个月累积下来就是天文数字。

电力消耗:服务器运行需要大量电力。

人力成本:科学家和工程师的工资。

数据成本:收集、清洗数据的成本。

训练一个模型要多久?

除了钱,时间也是重要成本。

小型模型

几亿参数的小模型,可能几天到几周就能训练完成。

中型模型

几十亿参数的模型,可能需要几周到几个月。

大型模型

几百亿参数的模型,可能需要几个月到一年。

超大型模型

像 GPT- 4 这样的模型,可能需要一年以上。

常见问题

Q:普通人能训练自己的大模型吗?

A:训练真正的大模型成本极高。但如果只是想微调现有模型,普通人可以做到。

Q:大模型训练一次就能成功吗?

A:不一定。很多时候需要多次实验,调整参数,才能得到好结果。

Q:大模型训练会一直持续吗?

A:基础模型训练是一次性的。但上线后会持续收集用户反馈,不断改进。

Q:训练数据越多越好吗?

A:质量和多样性同样重要。低质量数据可能反而降低模型效果。

总结

大模型训练分两个阶段:预训练让 AI 学会语言规律,微调让 AI 学会好好回答问题。

预训练需要海量数据和超强算力,成本高达数百万甚至数亿美元。

微调用人类反馈强化学习(RLHF),让 AI 的回答更符合人类期望。

虽然训练成本高昂,但训练好的模型可以被无数人使用,边际成本很低。

正文完
 0