如果你使用过 ChatGPT、Claude、Gemini 或任何 AI 大模型,你一定见过「Token」这个词。Token(词元)是大语言模型(LLM)理解和生成文本的最小单位。
简单来说,Token 就是模型处理文本时的「积木块」。模型不直接读取文字,而是先把文本切分成一个个 Token,然后对这些 Token 进行理解和生成。
一个直观的例子:
英文句子 "Hello world" 会被切分为 2 个 Token:Hello 和 world
中文句子 "你好世界" 可能被切分为 2-4 个 Token,取决于模型的分词器(Tokenizer)
Token 既不是单词,也不是字符,而是介于两者之间的一种「子词」(subword)单元。一个 Token 可能是一个完整的单词(如 "hello"),也可能是一个词的一部分(如 "un-" 和 "-happy"),甚至可能是一个标点符号。
大模型使用 Token 而不是直接使用文字,有几个重要原因:
不同模型使用不同的分词算法(Tokenizer),目前主流的有三种:
BPE 是最常用的分词算法,被 GPT 系列、Claude、LLaMA 等模型采用。它的核心思想是:
WordPiece 是 Google 的 BERT 模型使用的分词方法,原理与 BPE 类似,但合并策略略有不同。它选择合并后能最大化训练数据似然的字符对。
SentencePiece 是 Google 开发的语言无关分词工具,特别适合处理中日韩等不以空格分词的语言。它直接在原始文本(包括空格)上进行分词,不依赖预分词步骤。
英文:1 个 Token 大约等于 4 个字符,或 0.75 个单词。100 个 Token 约 75 个英文单词。
中文:1 个汉字通常需要 1-2 个 Token(取决于模型)。100 个 Token 约 50-100 个汉字。
代码:代码的 Token 消耗通常高于自然语言,因为变量名、符号等都会占用 Token。
中文 Token 计算与英文有很大差异。由于中文没有天然的空格分隔符,且汉字数量远超英文字母,不同模型对中文的 Token 化效率差异显著。
以「人工智能正在改变世界」这句话为例:
| 模型 | Token 数 | 分词结果 |
|---|---|---|
| GPT-4 / GPT-4o | 5-7 | 较高效,常见词作为整体 |
| Claude 3.5/4 | 5-8 | 对中文优化较好 |
| Gemini | 5-7 | 使用 SentencePiece,中文友好 |
| 通义千问 | 4-6 | 专为中文优化,效率最高 |
| DeepSeek | 4-6 | 中文分词效率优秀 |
| GLM / 智谱 | 4-6 | 中文原生模型,效率高 |
国产大模型在中文 Token 化上普遍比国际模型更高效,这意味着在同样的 Token 限制下,国产模型能处理更多的中文文本,性价比更高。
Token 是大模型按量计费的基本单位。了解各模型的 Token 价格,对控制成本至关重要。以下是 2026 年主流模型的定价(均按百万 Token 计):
| 模型 | 输入价格 | 输出价格 | 上下文窗口 |
|---|---|---|---|
| GPT-4o | $2.50 | $10.00 | 128K |
| GPT-4.1 | $2.00 | $8.00 | 1M |
| Claude Opus 4 | $15.00 | $75.00 | 200K |
| Claude Sonnet 4 | $3.00 | $15.00 | 200K |
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M |
| 模型 | 输入价格(元/百万Token) | 输出价格(元/百万Token) | 上下文窗口 |
|---|---|---|---|
| DeepSeek-V3 | 1.00 | 2.00 | 128K |
| 通义千问 Max | 2.00 | 6.00 | 128K |
| Kimi k2.5 | 2.00 | 8.00 | 128K |
| GLM-4-Plus | 5.00 | 5.00 | 128K |
| 豆包 Pro | 0.80 | 2.00 | 128K |
| MiniMax abab7 | 1.00 | 1.00 | 245K |
想看最新实时价格?词元社区提供模型价格实时对比工具,支持按需求筛选最具性价比的模型。
几个值得关注的趋势:
无论是个人还是企业用户,合理控制 Token 用量都能显著降低成本。以下是经过验证的优化策略:
一个好的提示词应该简洁而精确。避免冗余的说明和重复的上下文。
Claude、GPT 等模型支持 Prompt Caching,对重复的系统提示词只计费一次,后续调用可节省 80-90% 的输入 Token 费用。
不是所有任务都需要最强大的模型。简单的文本处理可以用轻量模型(如 GPT-4o-mini、Claude Haiku),复杂推理再用旗舰模型。
通过 max_tokens 参数限制输出长度,避免模型生成过多不必要的内容。在提示词中明确说明期望的输出格式和长度。
对于多轮对话,定期对历史消息进行摘要,用精简的摘要替代完整的历史记录,可以大幅减少 Token 消耗。
英文约 4 个字符(约 0.75 个单词),中文约 0.5-1 个汉字(取决于模型的分词器)。这是粗略估算,实际会有差异。
是的,每个模型都有「上下文窗口」(Context Window)限制。例如 GPT-4o 的上下文窗口是 128K Token,Claude 是 200K Token,Gemini 2.5 Pro 达到了 1M Token。输入和输出的 Token 总和不能超过这个限制。
因为每个模型使用不同的分词器(Tokenizer)和词汇表。就像不同语言对同一件事有不同的表达方式一样,不同的分词器会把文本切分成不同的 Token 序列。
大多数 API 在返回结果中会包含 usage 字段,标明了 prompt_tokens(输入 Token)和 completion_tokens(输出 Token)。你也可以使用词元首页的 Token 计算器来预估 Token 数量。
是的!多模态模型(如 GPT-4o、Gemini、Claude)处理图片和音频时,会将它们转换为等效的 Token。一张中等分辨率的图片大约消耗 500-2000 Token。