为什么大模型运行需要那么高的配置和算力?

问个问题要等好几秒,AI 大模型为什么这么 ” 吃 ” 配置?

用 ChatGPT 回答一个问题,有时候要等好几秒。国产 AI 也经常显示 ” 服务器繁忙 ”。

为什么大模型运行需要这么高的配置?今天从硬件角度,解释一下大模型为什么这么 ” 吃 ” 配置。

为什么大模型运行需要那么高的配置和算力?

大模型到底需要多少计算资源?

先说几个数字,让大家有个概念。

参数数量

GPT- 3 有 1750 亿个参数,GPT- 4 有更多(官方未公布具体数字)。

每个参数是一个数字,进行一次推理(回答一个问题)需要处理几十亿甚至几千亿次计算。

数据量

一个大模型文件,可能有几十 GB 甚至上百 GB。

GPT- 3 的模型文件大约有 800GB。需要把这么大量的数据加载到内存中进行计算。

计算量

回答一个问题,可能需要几十亿到几千亿次浮点数运算。

普通电脑的 CPU 每秒能处理几十亿次运算,但大模型需要的是每秒处理几万亿次。

为什么大模型需要这么高的算力?

原因一:参数太多了

大模型有几十亿到几千亿个参数。每次回答问题,都需要把这些参数全部 ” 过一遍 ”。

就像你有 1000 亿本书,回答问题时要把所有书都翻一遍,找到相关的知识。这个过程非常耗时。

原因二:并行计算复杂

大模型的计算不是顺序的,而是高度并行的。

需要同时处理大量的数据,这就对硬件提出了特殊的要求。

原因三:实时性要求

用户希望几秒钟内得到回答,而不是等几分钟。

这意味着需要在极短时间内完成海量计算。

为什么大模型运行需要那么高的配置和算力?

显卡为什么比 CPU 更适合跑大模型?

跑大模型主要靠显卡(GPU),而不是 CPU。为什么?

核心区别

CPU(中央处理器):核心少(一般几个到十几个),但每个核心很强,擅长复杂的逻辑运算。

GPU(图形处理器):核心多(几千到上万),但每个核心相对简单,擅长大量简单运算的并行处理。

大模型的特点

大模型的计算恰恰是大量简单的并行运算,而不是复杂的逻辑运算。

所以 GPU 比 CPU 更适合跑大模型。

类比理解

CPU 像一个几个高级工程师,一次能做一个复杂的项目。

GPU 像几千个普通工人,同时做大量简单的工作。

大模型的任务是把工作分成大量简单的部分,让几千个工人同时做,比几个工程师快得多。

跑大模型需要什么样的显卡?

显存大小是关键

大模型的参数需要加载到显存里。显存不够,模型就跑不起来。

显存需求估算

1B(10 亿)参数模型:约 2 -4GB 显存

7B 参数模型:约 14-28GB 显存

13B 参数模型:约 26-52GB 显存

70B 参数模型:约 140GB 以上显存

普通显卡显存一般是 8GB、12GB、24GB。所以能跑 7B 模型已经不错了。

推荐的显卡

RTX 3060 12GB:入门级,能跑 7B 量化模型。

RTX 3090 24GB:中级,能跑 13B 模型。

RTX 4090 24GB:较高级,性能更强。

A100 80GB:专业级,适合跑大模型。

没有好显卡怎么办?

方法一:使用云端服务

各大 AI 平台都有自己的服务器,用他们的服务不需要高配置电脑。

ChatGPT、文心一言等都是云端运行,你只需要能上网就行。

方法二:使用量化模型

量化是把模型参数从高精度变成低精度,大幅减少计算量和显存需求。

INT8 量化:精度降低一些,但显存需求减少一半。

INT4 量化:精度降低较多,但显存需求减少 75%。

这样低端显卡也能跑大模型了。

方法三:使用 CPU 运行

有些工具支持纯 CPU 运行,虽然很慢,但能跑起来。

llama.cpp 等工具支持 CPU 推理。

大模型运行的成本有多高?

云端 API 成本

GPT-4 API:约 $0.03-0.12 每 1000 个 Token

Claude API:约 $0.008-0.024 每 1000 个 Token

文心一言 API:相对便宜

自建服务器成本

一张 RTX 4090:约 15000 元

一台专业服务器:可能需要几十万

电费:一个月可能几百到几千元

常见问题

Q:普通电脑能跑大模型吗?

A:可以跑小型量化模型,但速度很慢。日常使用建议用云端服务。

Q:为什么云端 AI 回答有时候很慢?

A:服务器压力大的时候需要排队。高峰期用户多,计算资源不够用。

Q:未来大模型会越来越省算力吗?

A:会的。算法优化和硬件进步会让大模型效率越来越高。

Q:手机能跑大模型吗?

A:目前还很勉强。但随着技术进步,未来手机可能能跑小型大模型。

总结

大模型需要高算力的原因:参数太多、计算量太大、实时性要求高。

显卡比 CPU 更适合跑大模型,因为大模型需要大量简单运算的并行处理。

没有好显卡的解决方案:云端服务、量化模型、CPU 运行。

随着技术进步,大模型的算力需求会逐步降低,普通人使用 AI 的门槛也会越来越低。

正文完
 0