先说个冷笑话:有人花两万块配电脑,结果跑不动 7B 模型
是真的,我见过。
有个哥们兴致勃勃地买了台高配游戏本,想着本地跑个 AI 玩玩,结果发现显存不够,当场傻眼。本地部署 AI 这事儿,说难不难,说简单也不简单,关键得搞清楚自己的需求和硬件条件。
今天就聊聊本地部署 AI 需要什么,怎么操作,以及哪些坑千万别踩。

本地部署 AI,到底能跑哪些模型?
很多人以为本地部署就是跑 ChatGPT 那种级别的大模型,那是想多了。
家用电脑能跑的,基本都是 ” 小 ” 模型:
7B 参数模型
最常见的入门级别。7B 意思是 70 亿参数,对显卡要求不高,8G 显存勉强能跑,16G 显存体验会好很多。能力大概相当于 GPT-3.5 的水平,日常对话、写作辅助够用。
14B 参数模型
能力更强一些,需要 16G 以上显存才能流畅运行。效果接近 GPT-3.5 到 GPT- 4 之间,性价比之选。
量化模型
如果显存不够,可以跑量化版本。简单理解就是把模型压缩一下,虽然能力会打折扣,但能在更差的硬件上跑起来。
RTX 3060 及以上显卡,可以尝试 7B;RTX 4070 及以上,可以试试 14B;RTX 4090 可以跑得比较舒服。

具体怎么部署?实操步骤
我以最流行的 Ollama 为例,这是目前最简单的方式:
第一步:安装 Ollama
去官网 ollama.com 下载安装包,Windows、Mac、Linux 都支持。安装过程跟装普通软件一样,没什么难度。
第二步:下载模型
打开命令行,输入:
ollama pull llama3
这行命令会自动下载 llama3 模型,大概 4GB 左右。下载完就可以直接用了。
第三步:运行模型
继续在命令行输入:
ollama run llama3
就开始运行了,跟 ChatGPT 一样对话即可。
整个过程就是这么简单,代码都不用写。

那些年我踩过的坑
坑一:以为显存够就行
除了显存,内存也很重要。如果内存只有 16G,跑大模型可能会爆。建议 32G 内存起步,或者跑小一点的模型。
坑二:下载模型被抽风抽死
模型文件好几个 GB,下载的时候断了几次。后来学乖了,用网盘或者离线下载更稳定。
坑三:跑了之后发现完全不会用
本地跑模型只是第一步,怎么调教、怎么用才是关键。我见过很多人装完跑了个 ” 你好 ” 就放那儿吃灰了。
本地部署适合哪些人?
说实话,本地部署不是所有人都值得搞的。
适合的人:
• 对隐私有要求,不希望对话数据上传
• 有编程基础,想自己调试模型
• 电脑硬件不错,想玩玩看的
• 需要本地运行特定场景应用
不适合的人:
• 电脑配置一般,又不想升级的
• 懒得折腾,只想直接用的
• 追求最佳效果的
如果是第二类人,直接用 ChatGPT、Claude 这些在线服务不香吗?省心省力,效果还好。
常见问题
Q:Mac 能跑吗?
A:能。M 系列芯片的 Mac 跑 AI 效率很高,Ollama 原生支持。体验比 Windows 同配置好不少。
Q:没有独立显卡怎么办?
A:只能跑 CPU 版本,速度会很慢。或者用一些对硬件要求极低的在线模型。
Q:能跑中文模型吗?
A:可以。中文模型推荐 qwen、baichuan 这些,ollama 社区都有。
Q:本地模型能力比得上在线的吗?
A:差一个档次。但胜在隐私保护好,而且不花钱随便用。
总结
本地部署 AI 这事儿,技术上不难,难的是搞清楚自己到底要什么。
如果硬件够、兴趣浓,值得试试。
如果只是想用 AI 提高效率,直接用在线服务更省事。别为了折腾而折腾。
