什么是 Token（词元）？AI 大模型 Token 计算与定价全解析

一、Token 到底是什么？

如果你使用过 ChatGPT、Claude、Gemini 或任何 AI 大模型，你一定见过「Token」这个词。Token（词元）是大语言模型（LLM）理解和生成文本的最小单位。

简单来说，Token 就是模型处理文本时的「积木块」。模型不直接读取文字，而是先把文本切分成一个个 Token，然后对这些 Token 进行理解和生成。

一个直观的例子：

英文句子 "Hello world" 会被切分为 2 个 Token：Hello 和 world

中文句子 "你好世界" 可能被切分为 2-4 个 Token，取决于模型的分词器（Tokenizer）

Token 既不是单词，也不是字符，而是介于两者之间的一种「子词」（subword）单元。一个 Token 可能是一个完整的单词（如 "hello"），也可能是一个词的一部分（如 "un-" 和 "-happy"），甚至可能是一个标点符号。

为什么需要 Token？

大模型使用 Token 而不是直接使用文字，有几个重要原因：

词汇表大小可控：如果每个词都是独立单元，词汇表会非常庞大。Token 化（Tokenization）可以用有限的词汇表覆盖无限的文本组合。
处理未见过的词：通过子词分割，模型可以处理任何新词，即使它从未在训练数据中出现过。
多语言支持：Token 化让同一个模型可以同时处理英文、中文、日文等多种语言。
计算效率：Token 是模型实际进行矩阵运算的单位，合理的 Token 大小能平衡计算效率和表达能力。

二、Token 是怎么计算的？

不同模型使用不同的分词算法（Tokenizer），目前主流的有三种：

1. BPE（Byte Pair Encoding）

BPE 是最常用的分词算法，被 GPT 系列、Claude、LLaMA 等模型采用。它的核心思想是：

从单个字符（字节）开始
统计相邻字符对的出现频率
将出现最频繁的字符对合并为新 Token
重复这个过程，直到达到预设的词汇表大小

// BPE 分词过程示意

原始文本: "tokenization"

第1步: ['t','o','k','e','n','i','z','a','t','i','o','n']

第2步: ['to','k','en','i','z','a','t','i','on']  // 合并高频对

第3步: ['tok','en','iz','ation']  // 继续合并

最终: ['token','ization']  // 2个Token

2. WordPiece

WordPiece 是 Google 的 BERT 模型使用的分词方法，原理与 BPE 类似，但合并策略略有不同。它选择合并后能最大化训练数据似然的字符对。

3. SentencePiece

SentencePiece 是 Google 开发的语言无关分词工具，特别适合处理中日韩等不以空格分词的语言。它直接在原始文本（包括空格）上进行分词，不依赖预分词步骤。

粗略估算规则

英文：1 个 Token 大约等于 4 个字符，或 0.75 个单词。100 个 Token 约 75 个英文单词。

中文：1 个汉字通常需要 1-2 个 Token（取决于模型）。100 个 Token 约 50-100 个汉字。

代码：代码的 Token 消耗通常高于自然语言，因为变量名、符号等都会占用 Token。

三、中文的 Token 计算

中文 Token 计算与英文有很大差异。由于中文没有天然的空格分隔符，且汉字数量远超英文字母，不同模型对中文的 Token 化效率差异显著。

各模型中文 Token 效率

以「人工智能正在改变世界」这句话为例：

模型	Token 数	分词结果
GPT-4 / GPT-4o	5-7	较高效，常见词作为整体
Claude 3.5/4	5-8	对中文优化较好
Gemini	5-7	使用 SentencePiece，中文友好
通义千问	4-6	专为中文优化，效率最高
DeepSeek	4-6	中文分词效率优秀
GLM / 智谱	4-6	中文原生模型，效率高

国产大模型在中文 Token 化上普遍比国际模型更高效，这意味着在同样的 Token 限制下，国产模型能处理更多的中文文本，性价比更高。

四、各大模型 Token 价格对比

Token 是大模型按量计费的基本单位。了解各模型的 Token 价格，对控制成本至关重要。以下是 2026 年主流模型的定价（均按百万 Token 计）：

国际旗舰模型

模型	输入价格	输出价格	上下文窗口
GPT-4o	$2.50	$10.00	128K
GPT-4.1	$2.00	$8.00	1M
Claude Opus 4	$15.00	$75.00	200K
Claude Sonnet 4	$3.00	$15.00	200K
Gemini 2.5 Pro	$1.25	$10.00	1M

国产主力模型

模型	输入价格（元/百万Token）	输出价格（元/百万Token）	上下文窗口
DeepSeek-V3	1.00	2.00	128K
通义千问 Max	2.00	6.00	128K
Kimi k2.5	2.00	8.00	128K
GLM-4-Plus	5.00	5.00	128K
豆包 Pro	0.80	2.00	128K
MiniMax abab7	1.00	1.00	245K

想看最新实时价格？词元社区提供模型价格实时对比工具，支持按需求筛选最具性价比的模型。

价格解读

几个值得关注的趋势：

输出比输入贵：大多数模型的输出（生成）价格是输入（理解）价格的 2-5 倍，因为生成需要更多计算。
国产模型性价比极高：DeepSeek、豆包等国产模型价格仅为 GPT-4 的 1/10 到 1/5，且中文能力不逊色。
价格持续下降：2024 到 2026 年，主流模型价格已下降超过 80%，AI 使用成本越来越低。
免费额度：许多模型提供免费调用额度，个人用户日常使用几乎零成本。

五、如何优化 Token 用量

无论是个人还是企业用户，合理控制 Token 用量都能显著降低成本。以下是经过验证的优化策略：

1. 精简提示词（Prompt）

一个好的提示词应该简洁而精确。避免冗余的说明和重复的上下文。

// 低效（约 50 Token）

"请你帮我把下面的这段英文翻译成中文，翻译的时候请注意要通顺自然，

不要太生硬，尽量符合中文的表达习惯..."

// 高效（约 15 Token）

"翻译成自然流畅的中文："

2. 使用系统提示词缓存

Claude、GPT 等模型支持 Prompt Caching，对重复的系统提示词只计费一次，后续调用可节省 80-90% 的输入 Token 费用。

3. 选择合适的模型

不是所有任务都需要最强大的模型。简单的文本处理可以用轻量模型（如 GPT-4o-mini、Claude Haiku），复杂推理再用旗舰模型。

4. 控制输出长度

通过 max_tokens 参数限制输出长度，避免模型生成过多不必要的内容。在提示词中明确说明期望的输出格式和长度。

5. 压缩上下文

对于多轮对话，定期对历史消息进行摘要，用精简的摘要替代完整的历史记录，可以大幅减少 Token 消耗。

六、常见问题

Q: 1 个 Token 等于多少个字？

英文约 4 个字符（约 0.75 个单词），中文约 0.5-1 个汉字（取决于模型的分词器）。这是粗略估算，实际会有差异。

Q: Token 有上限吗？

是的，每个模型都有「上下文窗口」（Context Window）限制。例如 GPT-4o 的上下文窗口是 128K Token，Claude 是 200K Token，Gemini 2.5 Pro 达到了 1M Token。输入和输出的 Token 总和不能超过这个限制。

Q: 为什么相同文本在不同模型里 Token 数不同？

因为每个模型使用不同的分词器（Tokenizer）和词汇表。就像不同语言对同一件事有不同的表达方式一样，不同的分词器会把文本切分成不同的 Token 序列。

Q: 如何查看 API 调用消耗了多少 Token？

大多数 API 在返回结果中会包含 usage 字段，标明了 prompt_tokens（输入 Token）和 completion_tokens（输出 Token）。你也可以使用词元首页的 Token 计算器来预估 Token 数量。

Q: 图片和音频也消耗 Token 吗？

是的！多模态模型（如 GPT-4o、Gemini、Claude）处理图片和音频时，会将它们转换为等效的 Token。一张中等分辨率的图片大约消耗 500-2000 Token。

Token 计算器模型价格对比 AI 工具推荐 Prompt 编写指南技能市场社区首页

开始计算你的 Token

使用词元社区提供的免费工具，精确计算文本 Token 数量，对比各模型价格。

打开 Token 计算器

什么是 Token（词元）？

目录