AI 收费按 ”Token” 算,但 Token 和字数到底什么关系?
很多人被 Token 和字数的换算搞晕过。英文、中文、数字、符号,各算多少 Token?
今天一次讲清楚这个问题。

先说结论:不是 1:1 的关系
Token 不是字,也不是词,是一个独立的计算单位。
不同语言、不同内容,Token 数量都不一样。
中文 Token 怎么算?
基本规则
• 1 个汉字 ≈ 1- 2 个 Token
• 平均估算:1000 个汉字 ≈ 1500 个 Token
• 标点符号:1 个 Token
举例
“ 今天天气真好 ” → 6 个汉字 → 约 6 - 8 个 Token
“AI 正在改变世界!” → 8 个汉字 + 1 个感叹号 → 约 10 个 Token
影响因素
常见汉字可能只占 1 个 Token,生僻字可能被拆开。

英文 Token 怎么算?
基本规则
• 1 个单词 ≈ 1-1.5 个 Token
• 平均估算:1000 个单词 ≈ 1300 个 Token
分词规则
AI 有自己的 ” 词汇表 ”(Vocabulary)。常见词单独成 Token,罕见词被拆成子词。
比如:”unhappiness” 可能拆成 “un” + “happy” + “ness” 三个 Token。
举例
“hello world” → 2 个单词 → 约 2 个 Token
“artificial intelligence” → 3 个单词 → 约 4 个 Token
数字和符号怎么算?
数字
• 简单数字:每个数字 1 个 Token
• 复杂数字可能被拆分
比如 ”2024″ 可能是 1 个 Token,也可能是 4 个。
符号
• 标点符号通常 1 个 Token
• 特殊符号可能占用更多
• 表情符号(emoji)通常 1 - 2 个 Token
混合内容怎么算?
中英混合
混合文本的 Token 数介于纯中文和纯英文之间。
比如 ” 今天 Monday” → 约 6 - 8 个 Token
代码
代码通常比自然语言更 ” 费 ”Token,因为有大量符号。
URL 和邮箱
这类长字符串可能被拆成很多小 Token。
准确计算 Token 的方法
官方工具
OpenAI 提供在线 Tokenizer:platform.openai.com/tokenizer
输入文本,直接显示 Token 数量。
代码计算
Python 用 tiktoken 库:
import tiktoken
enc = tiktoken.encoding_for_model(“gpt-4”)
tokens = enc.encode(“ 你的文本 ”)
print(len(tokens))
快速估算
• 中文:字符数 × 1.5
• 英文:单词数 × 1.3
常见问题
Q:为什么同样的内容 Token 数不同?
A:不同模型的分词器不同,Token 数量会有差异。
Q:能减少 Token 数量吗?
A:可以精简文字、使用更简洁的表达。
Q:Token 有上限吗?
A:每个模型有上下文窗口上限,超过就无法处理。
总结
中文 1 字≈1-2 Token,英文 1 词≈1-1.5 Token。
数字和符号也占用 Token。
用官方工具可以准确计算。
了解换算关系,才能准确估算 AI 使用成本。
