AI大模型如何工作?架构原理、训练流程与常见类型解析

先说个很多人误解的事:大模型不是真正 ” 理解 ”

ChatGPT 能聊天、能写代码、能翻译,看起来好像什么都懂。但实际上,它只是在做一件事:预测下一个字。

今天就深入聊聊大模型是怎么工作的,看完你对 AI 会有更清晰的认识。

AI 大模型如何工作?架构原理、训练流程与常见类型解析

大模型的基本架构

Transformer 架构

现在的大模型基本都基于 Transformer 架构,2017 年 Google 提出的。核心是 ” 注意力机制 ”——让模型知道哪些词之间有关系。

举个例子:” 他拿起苹果吃了一口 ”。模型通过注意力机制,知道 ” 他 ” 和 ” 吃 ” 有关系,” 苹果 ” 是 ” 吃 ” 的对象。

参数是什么?

参数可以理解为模型的 ” 记忆单元 ”。7B 就是 70 亿个参数,70B 就是 700 亿个参数。参数越多,模型能 ” 记住 ” 的东西越多,能力越强。

AI 大模型如何工作?架构原理、训练流程与常见类型解析

大模型的训练流程

第一阶段:预训练

让模型 ” 读书 ”。给模型喂大量文本数据(互联网文章、书籍、代码等),让它学习语言的规律。

这个阶段消耗最多算力,成本最高。GPT- 4 的预训练据说花费上亿美元。

第二阶段:微调

预训练完的模型知道怎么说话,但不知道怎么好好说话。微调就是用高质量数据 ” 教 ” 它。

比如用对话数据微调,让模型学会聊天;用代码数据微调,让模型学会写代码。

第三阶段:对齐

让模型的输出符合人类价值观。用人类反馈来训练模型,让它学会什么该说、什么不该说。

这个过程叫 RLHF(基于人类反馈的强化学习)。

常见的大模型类型

按规模分

• 小型模型(1B-7B):轻量级,适合边缘设备

• 中型模型(7B-30B):性价比高,本地部署首选

• 大型模型(30B-100B+):能力最强,需要大量算力

按模态分

• 语言模型:处理文本,如 GPT、Claude

• 多模态模型:处理文本 + 图像 + 音频,如 GPT-4V

• 图像模型:生成图片,如 Midjourney、Stable Diffusion

按开放程度分

• 闭源模型:只能用 API,如 GPT-4、Claude

• 开源模型:可以自己部署,如 Llama、Qwen

AI 大模型如何工作?架构原理、训练流程与常见类型解析

推理过程:AI 是怎么回答问题的

当你问 AI 一个问题,它会:

1. 把你的问题转换成数字(tokenization)

2. 根据上文,计算下一个字出现的概率

3. 选择概率最高的字(或采样)

4. 把选中的字加入上下文,继续预测下一个字

5. 重复直到生成完整回答

整个过程就是不断 ” 预测下一个字 ”,速度很快。

常见问题

Q:参数越大越好吗?

A:大致是对的,但不是线性关系。70B 模型的能力可能只比 13B 强 2 - 3 倍,但成本高很多。

Q:开源模型和闭源模型差多少?

A:顶级闭源模型(GPT-4)目前还是比开源模型强一截。但差距在缩小。

Q:为什么 AI 回答同一个问题每次都不一样?

A:因为推理过程有随机性。模型计算的是概率分布,采样时有一定随机性。

总结

大模型基于 Transformer 架构,通过预训练 + 微调 + 对齐三个阶段训练而成。

推理时,模型不断预测下一个字,直到生成完整回答。

理解这些原理,能帮你更好地使用 AI 工具。

正文完
 0