Token 计算器 — 准确统计 GPT-4o / GPT-4 的 token 数并可视化分词(免费)
Token 可视化分词
颜色仅用于区分相邻 token,无语义含义在上方输入文本以查看 token 可视化结果。
相关外部工具
部分链接为联盟营销链接。
相关工具
这款免费 token 计算器使用真实的 OpenAI BPE 分词器,精准统计 GPT-4o、GPT-4 和 GPT-3.5 的 token 数。粘贴任意文本,即可实时查看准确的 token 数、彩色可视化分词结果,以及字符数和单词数。可切换模型(GPT-4o=o200k_base,GPT-4=cl100k_base)进行对比。一切均在浏览器本地运行,文本不会上传至服务器。
使用方法
- 选择模型(GPT-4o、GPT-4、GPT-3.5),编码方式将自动切换。
- 在文本框中粘贴或输入提示词,token 数和字符数将实时更新。
- 下方的彩色可视化展示文本的分词结果,每个色块代表一个 token。空格显示为「·」,换行显示为「↵」。
- 点击「清除」重置,点击「复制」可复制输入文本。
- 展开「费用估算」,输入每 1K token 的价格,即可计算大致 API 费用(仅供参考)。
- 无需安装,无需注册,文本不会离开您的设备。
什么是 token?
Token 是 GPT 等大语言模型处理文本的基本单位。单词会被拆分为子词,一个单词可能对应一个或多个 token。英文中,一个 token 大约对应 4 个字符或 0.75 个单词,但这只是粗略估计。实际 token 数取决于具体文本、语言和编码方式。本工具使用真实分词器,因此得到的是精确数值而非估算。
模型编码:cl100k_base 与 o200k_base
不同 GPT 模型使用不同的分词编码。GPT-4 和 GPT-3.5 使用 cl100k_base,而 GPT-4o 和 GPT-4o mini 使用更新的 o200k_base,后者对多语言文本的 token 效率更高。同一段文本在不同编码下可能产生不同的 token 数——切换模型即可对比。注意:本工具仅支持 OpenAI GPT 系列模型,Claude、Gemini 等其他模型使用各自的分词器,本工具的数值不适用于它们。
如何阅读分词可视化
每个彩色色块代表一个 token,相邻 token 通过颜色加以区分(颜色本身无意义)。token 内的空格显示为「·」,换行显示为「↵」,清晰展示空白字符如何被 token 化。若文本超过 2000 个 token,仅显示前 2000 个色块,但总 token 数始终精确。
字符数、单词数与 token 数的区别
字符数是 Unicode 码点数(emoji 和 CJK 字符各计为 1),单词数是字母或数字连续出现的次数(对中文等语言仅供参考)。Token 数则不同,它是大语言模型实际处理的 BPE token 数量,也是决定 API 费用和上下文窗口占用的依据。
使用场景
提示词管理与上下文窗口限制
粘贴完整提示词,检查是否超出模型的上下文窗口限制(例如 GPT-4o 为 128,000 token)。若接近上限,可据此删减不必要的内容。请注意,上限数值可能随模型更新而变化,仅供参考。
API 费用估算(参考)
API 按 token 数收费。展开「费用估算」面板,输入每 1K token 的输入价格(美元),即可计算大致费用。由于实际价格因输入/输出 token、模型版本及 OpenAI 定价调整而异,请以官方定价页面为准。
不同语言的 token 效率对比
相同含义的中文、日文或韩文通常比英文消耗更多 token,这是因为 BPE 对非拉丁文字的编码效率较低。GPT-4o 的 o200k_base 编码相较于 cl100k_base 在多语言场景下效率有所提升——切换模型即可直观对比中文 token 数的差异。
常见问题
- Token 数统计准确吗?
- 对于支持的模型,统计是准确的。本工具使用与 OpenAI GPT-4o、GPT-4、GPT-3.5 内部相同的真实分词器(BPE),而非「字符数除以 4」等近似估算。
- 为什么切换模型后 token 数会变化?
- GPT-4o 系列使用 o200k_base 编码,GPT-4 和 GPT-3.5 使用 cl100k_base 编码,两者词表不同,因此同一段文本的分割方式和 token 数会有差异。
- 能统计 Claude 或 Gemini 的 token 数吗?
- 不能。本工具仅支持 OpenAI GPT 系列(GPT-4o、GPT-4、GPT-3.5)。Claude、Gemini 等其他模型使用各自专有的分词器,本工具的数值不适用于它们。
- 我的文本会被上传或保存吗?
- 不会。分词器库已随页面打包,所有运算均在浏览器本地进行。您的文本不会离开您的设备,不会上传或存储。
- 为什么中文、日文、韩文的 token 数更多?
- BPE 分词器将文本切分为子词,拉丁字母的编码效率更高,而 CJK 字符通常每个字符对应更多 token。GPT-4o 的 o200k_base 对此有所改善,切换模型可以对比差异。
- 可以在这里估算 API 费用吗?
- 可以估算大致费用。展开「费用估算」区域,输入每 1K token 的输入价格(美元),工具将乘以 token 数得出估算结果。实际费用取决于输入/输出 token 的区别、具体模型版本和当前 OpenAI 定价,请以官方定价页面为准。
- 需要 API 密钥吗?
- 不需要。分词器完全在浏览器本地运行,不调用 OpenAI 的任何 API。