词元
在人工智能和大语言模型(LLM)的语境下,词元(Token)是模型处理、理解和生成文本的最小基本计量单位。 1 2
核心定义
- 本质:它是自然语言与机器向量之间的“中间桥梁”。计算机无法直接理解文字,必须先将文本拆解成词元,再转化为数字向量进行计算。
- 官方命名:2026年3月23日,国家数据局在中国发展高层论坛上正式将 Token 的中文名确定为“词元”。 2 3 4 5
词元是如何拆分的?
词元并不等同于单词或汉字,具体拆分规则取决于模型使用的分词器(Tokenizer):
- 英文:通常一个单词是一个词元,但复杂的长单词可能被拆分为多个子词。
- 中文:通常 1 个词元大约相当于 1.5 到 2 个汉字。常见的词语(如“中国”)可能是一个词元,而生僻字(如“夔”)则可能由多个词元组合而成。
- 其他:数字、标点符号、空格也都会被计为词元。 2 6
为什么词元很重要?
- 计费标准:AI 服务(如 DeepSeek、OpenAI)通常按照处理的词元数量收费,它是衡量资源消耗的财务单位。
- 性能瓶颈:模型一次能处理的文本长度(上下文窗口)是有上限的,这个上限就是由词元总数决定的。
- 产业指标:词元调用量已成为衡量 AI 产业活跃度的关键指标。截至 2026 年 3 月,我国日均词元调用量已突破 140 万亿。 1 2 7 8
其他领域的含义
虽然在 AI 领域被称为“词元”,但在不同技术场景下 Token 还有其他译名:
如果你想查看具体的文本会被拆成多少个词元,可以使用 OpenAI Tokenizer 等在线工具进行测试。 13 14