先说个实际需求:写文章前想知道要消耗多少 Token
用 AI 写文章或者调用 API,总想知道大概要花多少钱。这就需要知道字数和 Token 怎么换算。
今天就把 Token 计算方法详细说清楚。

Token 换算的基本规则
中文换算
• 一般情况:1 个汉字 ≈ 1- 2 个 Token
• 常见词汇:可能更少,” 你好 ” 可能只算 1 个 Token
• 生僻字:可能更多
• 平均估算:1000 个汉字 ≈ 1500 个 Token
英文换算
• 一般情况:1 个单词 ≈ 1.3 个 Token
• 常见词:the、is、a 等 ≈ 1 个 Token
• 复杂词:可能拆成多个 Token
• 平均估算:1000 个单词 ≈ 1300 个 Token
标点符号
• 中文标点:通常 1 个 Token
• 英文标点:通常 1 个 Token
空格和换行
• 也会占用 Token,但通常较少

不同模型的差异
OpenAI 模型(GPT 系列)
• 使用 tiktoken 分词器
• 中文效率一般
• 1000 汉字 ≈ 1500-2000 Token
Claude 模型
• 使用自己的分词器
• 中文效率略好
• 1000 汉字 ≈ 1200-1500 Token
国产模型(文心、通义等)
• 针对中文优化
• 中文效率最高
• 1000 汉字 ≈ 1000-1200 Token
如何准确计算 Token?
方法一:使用官方工具
OpenAI 提供 Tokenizer 工具,可以在线计算:
• 网址:platform.openai.com/tokenizer
• 输入文本,自动显示 Token 数量
方法二:使用代码计算
Python 可以用 tiktoken 库:
import tiktoken
enc = tiktoken.encoding_for_model(“gpt-4”)
tokens = enc.encode(“ 你的文本 ”)
print(len(tokens))
方法三:快速估算
没有工具时,用经验公式:
• 中文:字数 × 1.5 ≈ Token 数
• 英文:单词数 × 1.3 ≈ Token 数

实际案例演示
案例一:中文短文
文本:” 今天天气真好,我想出去走走。”
字数:14 个汉字 + 2 个标点 = 16 字符
Token 数:约 18-22 个
案例二:英文句子
文本:”The weather is nice today, I want to go for a walk.”
单词数:12 个单词
Token 数:约 14-16 个
案例三:中英混合
文本:” 今天用 ChatGPT 写了一篇 500 字的文章。”
Token 数:约 15-20 个
中英混合的文本,Token 数介于纯中文和纯英文之间。
常见问题
Q:为什么同样的内容 Token 数不一样?
A:不同模型分词方式不同,Token 数量有差异。
Q:代码的 Token 怎么算?
A:代码通常比自然语言更 ” 费 ”Token,因为有很多符号和缩写。
Q:格式化会影响 Token 吗?
A:会。换行、缩进、空格都会占用 Token。
总结
中文 1 字约等于 1.5 个 Token,英文 1 词约等于 1.3 个 Token。
不同模型有差异,国产模型中文效率更高。
准确计算用官方工具,快速估算用经验公式。
了解换算方法,帮你更好地控制 AI 使用成本。
