问个问题要等好几秒,AI 大模型为什么这么 ” 吃 ” 配置?
用 ChatGPT 回答一个问题,有时候要等好几秒。国产 AI 也经常显示 ” 服务器繁忙 ”。
为什么大模型运行需要这么高的配置?今天从硬件角度,解释一下大模型为什么这么 ” 吃 ” 配置。

大模型到底需要多少计算资源?
先说几个数字,让大家有个概念。
参数数量
GPT- 3 有 1750 亿个参数,GPT- 4 有更多(官方未公布具体数字)。
每个参数是一个数字,进行一次推理(回答一个问题)需要处理几十亿甚至几千亿次计算。
数据量
一个大模型文件,可能有几十 GB 甚至上百 GB。
GPT- 3 的模型文件大约有 800GB。需要把这么大量的数据加载到内存中进行计算。
计算量
回答一个问题,可能需要几十亿到几千亿次浮点数运算。
普通电脑的 CPU 每秒能处理几十亿次运算,但大模型需要的是每秒处理几万亿次。
为什么大模型需要这么高的算力?
原因一:参数太多了
大模型有几十亿到几千亿个参数。每次回答问题,都需要把这些参数全部 ” 过一遍 ”。
就像你有 1000 亿本书,回答问题时要把所有书都翻一遍,找到相关的知识。这个过程非常耗时。
原因二:并行计算复杂
大模型的计算不是顺序的,而是高度并行的。
需要同时处理大量的数据,这就对硬件提出了特殊的要求。
原因三:实时性要求
用户希望几秒钟内得到回答,而不是等几分钟。
这意味着需要在极短时间内完成海量计算。

显卡为什么比 CPU 更适合跑大模型?
跑大模型主要靠显卡(GPU),而不是 CPU。为什么?
核心区别
CPU(中央处理器):核心少(一般几个到十几个),但每个核心很强,擅长复杂的逻辑运算。
GPU(图形处理器):核心多(几千到上万),但每个核心相对简单,擅长大量简单运算的并行处理。
大模型的特点
大模型的计算恰恰是大量简单的并行运算,而不是复杂的逻辑运算。
所以 GPU 比 CPU 更适合跑大模型。
类比理解
CPU 像一个几个高级工程师,一次能做一个复杂的项目。
GPU 像几千个普通工人,同时做大量简单的工作。
大模型的任务是把工作分成大量简单的部分,让几千个工人同时做,比几个工程师快得多。
跑大模型需要什么样的显卡?
显存大小是关键
大模型的参数需要加载到显存里。显存不够,模型就跑不起来。
显存需求估算
1B(10 亿)参数模型:约 2 -4GB 显存
7B 参数模型:约 14-28GB 显存
13B 参数模型:约 26-52GB 显存
70B 参数模型:约 140GB 以上显存
普通显卡显存一般是 8GB、12GB、24GB。所以能跑 7B 模型已经不错了。
推荐的显卡
RTX 3060 12GB:入门级,能跑 7B 量化模型。
RTX 3090 24GB:中级,能跑 13B 模型。
RTX 4090 24GB:较高级,性能更强。
A100 80GB:专业级,适合跑大模型。
没有好显卡怎么办?
方法一:使用云端服务
各大 AI 平台都有自己的服务器,用他们的服务不需要高配置电脑。
ChatGPT、文心一言等都是云端运行,你只需要能上网就行。
方法二:使用量化模型
量化是把模型参数从高精度变成低精度,大幅减少计算量和显存需求。
INT8 量化:精度降低一些,但显存需求减少一半。
INT4 量化:精度降低较多,但显存需求减少 75%。
这样低端显卡也能跑大模型了。
方法三:使用 CPU 运行
有些工具支持纯 CPU 运行,虽然很慢,但能跑起来。
llama.cpp 等工具支持 CPU 推理。
大模型运行的成本有多高?
云端 API 成本
GPT-4 API:约 $0.03-0.12 每 1000 个 Token
Claude API:约 $0.008-0.024 每 1000 个 Token
文心一言 API:相对便宜
自建服务器成本
一张 RTX 4090:约 15000 元
一台专业服务器:可能需要几十万
电费:一个月可能几百到几千元
常见问题
Q:普通电脑能跑大模型吗?
A:可以跑小型量化模型,但速度很慢。日常使用建议用云端服务。
Q:为什么云端 AI 回答有时候很慢?
A:服务器压力大的时候需要排队。高峰期用户多,计算资源不够用。
Q:未来大模型会越来越省算力吗?
A:会的。算法优化和硬件进步会让大模型效率越来越高。
Q:手机能跑大模型吗?
A:目前还很勉强。但随着技术进步,未来手机可能能跑小型大模型。
总结
大模型需要高算力的原因:参数太多、计算量太大、实时性要求高。
显卡比 CPU 更适合跑大模型,因为大模型需要大量简单运算的并行处理。
没有好显卡的解决方案:云端服务、量化模型、CPU 运行。
随着技术进步,大模型的算力需求会逐步降低,普通人使用 AI 的门槛也会越来越低。
