[知识库] 什么是 Token？LLM 的“计量单位”全解析

张

张建站

2026/4/28 10:09:25

10分钟阅读

摘要在使用 Cursor、ChatGPT 或调用 API 时我们常看到“Token”这个词。它既不是字符也不完全是单词。本文深入解析 Token 的本质、中英文差异、计费逻辑以及如何估算用量帮助开发者更好地控制成本与上下文。1. 核心定义什么是 TokenToken是大语言模型LLM处理文本时的最小单位。如果把人类阅读文章比作看一部连续的电影那么模型阅读文章就是看由一张张静态胶片Token拼接而成的序列。模型无法直接理解“整句话”或“整个词”它只能识别和处理被拆分后的 Token ID。通俗比喻人类视角文字是流畅的河流。模型视角文字是由一块块乐高积木Token拼搭起来的建筑。2. 分词逻辑它是如何拆分的模型在接收文本前会通过一个分词器Tokenizer将文本切碎。拆分规则基于统计频率而非简单的语法空格。英文场景英文通常以“子词Subword”为单位常见单词 1 个 Tokenapple→[apple](1 token)生僻词或长词多个 Tokenunbelievable→[un, bel, ievable](3 tokens)标点符号独立 TokenHello, world!→[Hello, ,, world, !](4 tokens)经验法则1000 个英文 Token ≈ 750 个英文单词。中文场景中文没有天然空格分词更细碎主流模型如 GPT-4, Claude 3倾向于将单个汉字或常用双字词拆分为 Token。你好→ 可能是[你, 好](2 tokens) 或[你好](1 token取决于词频)人工智能→ 常被拆为[人工, 智能]或[人, 工, 智, 能]经验法则1 个汉字 ≈ 1.5 ~ 2 个 Token视具体模型而定。注较新的模型对中文优化更好可能接近 1 字 1 Token但保守估计按 1.5 计算更安全。3. 为什么关注 Token三大影响 1. 计费成本 (Cost)大多数 LLM APIOpenAI, Anthropic, Google 等均按Input Token Output Token收费。输入Prompt你发给模型的内容便宜一些。输出Completion模型生成的内容通常贵 2-3 倍。公式总费用 (输入字数 × 单价) (输出字数 × 单价)如果你发现账单暴涨通常是因为输出了大量代码或长文。 2. 上下文窗口 (Context Window)模型有“记忆上限”即最大上下文长度如 128K, 200K Tokens。一旦对话历史当前文件超过这个限制模型就会“遗忘”最早的信息。开发者注意在 Cursor 中打开超大项目文件时如果超出限制AI 可能无法读取完整文件内容。⚡ 3. 响应速度 (Latency)Token 生成是串行的一个字一个字蹦。Token 越多生成时间越长。首字延迟TTFT也与 Prompt 的 Token 数量正相关。4. 实战估算速查表内容类型预估 Token 数备注1 个汉字~1.5 Tokens中文通常比英文更占 Token1 个英文单词~1.3 Tokens平均来看1 行代码~5-10 Tokens取决于变量名长度和复杂度1 页 A4 纸~600-800 Tokens纯文本《红楼梦》全书~90 万 - 100 万 Tokens约 73 万字一次复杂编程任务~2,000 - 5,000 Tokens包含多个文件上下文长回答5. 常见误区优化技巧❌ 误区“Token 就是字数。” →错标点、空格、特殊符号都算且中英文比例不同。“我只付生成的钱。” →错你发送给模型的上下文尤其是上传的大文件也要花钱/占额度。✅ 优化技巧省钱/省额度精简 Prompt去掉不必要的客套话如“请作为一个专家…”直接给指令。清理上下文在长对话中定期总结之前的结论丢弃冗余的历史记录。代码片段化在 Cursor 中尽量只引用相关的文件而不是整个项目文件夹。压缩变量名虽然不推荐为了省 Token 写烂代码但在极端的 Prompt 长度受限场景下简短的变量名能略微减少输入量。6. 案例回顾6429.3 万 Tokens 是多少回到你最开始的问题6429.3 万 Tokens意味着什么换算成汉字约4000 万 ~ 4500 万个汉字。换算成书籍相当于50 ~ 60 本《红楼梦》全集的内容量。换算成代码如果平均每次辅助生成 50 行代码约 300 Tokens这代表进行了21 万次AI 代码生成操作。价值如果是付费用户这可能是一笔不小的开支如果是免费/订阅制用户这说明你是一个重度依赖 AI 编程的高产开发者结语Token 是连接人类语言与机器智能的“货币”。理解它不仅能帮你算清账单更能让你学会如何更高效地与 AI 沟通用更少的 Token 换取更精准的结果。

Elasticvue：终极Elasticsearch可视化界面，让数据管理变得如此简单！

Elasticvue：终极Elasticsearch可视化界面，让数据管理变得如此简单！ 【免费下载链接】elasticvue Elasticsearch gui for the browser 项目地址: https://gitcode.com/gh_mirrors/el/elasticvue 你是否曾经为管理Elasticsearch集群而感…...

2026/4/23 4:41:10 阅读更多 →

春秋云境CVE-2015-4852

1.阅读靶场介绍关键字眼出现在WebLogic和7001 还有CVE-2015-4852这里看起来像是框架漏洞2.启动靶场3.poc利用启动天狐找到WebLogic如下所示这里选择all echo然后存在谁就执行谁检测出来就更换一下漏洞的编号然后在命令执行输入cat /flag相信各位博主也拿下flag了感谢你们的观看…...

2026/4/27 12:45:10 阅读更多 →

开源演示工具PPTist：重新定义在线幻灯片创作体验

开源演示工具PPTist：重新定义在线幻灯片创作体验【免费下载链接】PPTist 基于 Vue3.x TypeScript 的在线演示文稿（幻灯片）应用，还原了大部分 Office PowerPoint 常用功能，实现在线PPT的编辑、演示。支持导出PPT文件。…...

2026/4/8 13:44:30 阅读更多 →

如何理解临键锁Next-Key Lock_行锁与间隙锁的组合原理解析

临键锁锁定的是左开右闭区间，如对索引值20加锁即锁住(10,20]，包含记录20及前一索引间隙；仅作用于被扫描的索引范围，且在REPEATABLE READ下启用。临键锁到底锁了哪块数据？临键锁不是新锁类型，而是 Record Lo…...

2026/4/27 7:22:16 阅读更多 →

CUDA 13.3 RTX 4090实测报告：FP16混合精度算子性能断层分析（含37个主流PyTorch算子汇编级差异对比）

更多请点击： https://intelliparadigm.com 第一章：CUDA 13.3 RTX 4090混合精度算子性能断层分析总览 NVIDIA RTX 4090 搭载的 Ada Lovelace 架构在 CUDA 13.3 中首次全面启用第三代 Tensor Core 的 FP8 原生支持，使得混合精度计算路径&…...

2026/4/27 7:22:16 阅读更多 →

Vue3项目实战：手写Ant Design Vue a-table拖拽排序（绕过付费功能）

Vue3项目实战：基于Ant Design Vue的a-table手写拖拽排序方案去年接手一个从React迁移到Vue3的项目时，遇到了一个有趣的挑战。项目使用了Ant Design Vue作为UI组件库，在实现菜单管理列表的拖拽排序功能时，发现官方提供的a-table拖…...

2026/4/27 7:22:16 阅读更多 →

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间，指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2026/4/27 7:22:17 阅读更多 →