跳到主要内容

词元

在人工智能和大语言模型(LLM)的语境下,词元(Token)是模型处理、理解和生成文本的最小基本计量单位。 1 2

核心定义

  • 本质:它是自然语言与机器向量之间的“中间桥梁”。计算机无法直接理解文字,必须先将文本拆解成词元,再转化为数字向量进行计算。
  • 官方命名:2026年3月23日,国家数据局在中国发展高层论坛上正式将 Token 的中文名确定为“词元”。 2 3 4 5

词元是如何拆分的?

词元并不等同于单词或汉字,具体拆分规则取决于模型使用的分词器(Tokenizer):

  • 英文:通常一个单词是一个词元,但复杂的长单词可能被拆分为多个子词。
  • 中文:通常 1 个词元大约相当于 1.5 到 2 个汉字。常见的词语(如“中国”)可能是一个词元,而生僻字(如“夔”)则可能由多个词元组合而成。
  • 其他:数字、标点符号、空格也都会被计为词元。 2 6

为什么词元很重要?

  • 计费标准:AI 服务(如 DeepSeek、OpenAI)通常按照处理的词元数量收费,它是衡量资源消耗的财务单位。
  • 性能瓶颈:模型一次能处理的文本长度(上下文窗口)是有上限的,这个上限就是由词元总数决定的。
  • 产业指标:词元调用量已成为衡量 AI 产业活跃度的关键指标。截至 2026 年 3 月,我国日均词元调用量已突破 140 万亿。 1 2 7 8

其他领域的含义

虽然在 AI 领域被称为“词元”,但在不同技术场景下 Token 还有其他译名:

  • 区块链/金融:称为“代币”,代表一种数字资产。
  • 网络安全:称为“令牌”,用于身份验证或访问权限控制。
  • 计算机系统:称为“记号”或“标记”,用于词法分析。 9 10 11 12

如果你想查看具体的文本会被拆成多少个词元,可以使用 OpenAI Tokenizer 等在线工具进行测试。 13 14

Footnotes

  1. https://www.yzwb.net 2

  2. https://api-docs.deepseek.com 2 3 4

  3. https://www.21jingji.com

  4. https://www.ycnews.cn

  5. https://www.techwalker.com

  6. https://www.bilibili.com

  7. https://www.guancha.cn

  8. https://docs.feishu.cn

  9. https://zh.wikipedia.org

  10. https://gbcode.rthk.hk

  11. https://learn.backpack.exchange

  12. https://baike.baidu.com

  13. https://wangwei1237.github.io

  14. https://www.chenshaowen.com