跳到主要内容

词元

在人工智能和大语言模型（LLM）的语境下，词元（Token）是模型处理、理解和生成文本的最小基本计量单位。 ¹ ²

核心定义

本质：它是自然语言与机器向量之间的“中间桥梁”。计算机无法直接理解文字，必须先将文本拆解成词元，再转化为数字向量进行计算。
官方命名：2026年3月23日，国家数据局在中国发展高层论坛上正式将 Token 的中文名确定为“词元”。 ² ³ ⁴ ⁵

词元是如何拆分的？

词元并不等同于单词或汉字，具体拆分规则取决于模型使用的分词器（Tokenizer）：

英文：通常一个单词是一个词元，但复杂的长单词可能被拆分为多个子词。
中文：通常 1 个词元大约相当于 1.5 到 2 个汉字。常见的词语（如“中国”）可能是一个词元，而生僻字（如“夔”）则可能由多个词元组合而成。
其他：数字、标点符号、空格也都会被计为词元。 ² ⁶

为什么词元很重要？

计费标准：AI 服务（如 DeepSeek、OpenAI）通常按照处理的词元数量收费，它是衡量资源消耗的财务单位。
性能瓶颈：模型一次能处理的文本长度（上下文窗口）是有上限的，这个上限就是由词元总数决定的。
产业指标：词元调用量已成为衡量 AI 产业活跃度的关键指标。截至 2026 年 3 月，我国日均词元调用量已突破 140 万亿。 ¹ ² ⁷ ⁸

其他领域的含义

虽然在 AI 领域被称为“词元”，但在不同技术场景下 Token 还有其他译名：

区块链/金融：称为“代币”，代表一种数字资产。
网络安全：称为“令牌”，用于身份验证或访问权限控制。
计算机系统：称为“记号”或“标记”，用于词法分析。 ⁹ ¹⁰ ¹¹ ¹²

如果你想查看具体的文本会被拆成多少个词元，可以使用 OpenAI Tokenizer 等在线工具进行测试。 ¹³ ¹⁴

核心定义
词元是如何拆分的？
为什么词元很重要？
其他领域的含义