AI的“油耗”和“内存”：每个工程师都该懂的Token与上下文

你好，我是郑工长。

你有没有遇到过这样的情况：用大模型写代码，写着写着它就“失忆”了？或者只是问了几个问题，账单上的Token费用却高得离谱？

很多朋友把大模型当成一个“黑箱”，只管输入和输出。但作为一个工程师，我告诉你，如果你不理解AI大模型计算最底层的“计量单位”和“内存结构”，你不仅会为它“失忆”而困惑，更会在成本和效率上踩大坑。

今天，我们来拆解大模型计算最核心的两个物理定律：Token 和 上下文窗口。理解它们，你就理解了AI的“油耗”和““内存”。

一个更本质的工程定律：在任何工程系统中，对核心资源（算力、带宽、存储）的计量单位及其瓶颈（上下文窗口），是决定系统架构、成本结构和应用边界的第一性原理。

Token是AI模型处理文本的最小单位，不是字符，也不是单词。你可以把它理解为AI思考和行动的“燃料”。

例子： “你好，世界！” ≈ 3-4个Token。AI每处理或生成一个Token，就像汽车每烧掉一滴油，都是有成本的。所以，Token越多，模型跑得越远（内容越长），但油耗也越高。

输入Token： 你发送给模型的所有内容，包括你的问题、指令、之前的对话历史、提供的文档或代码。你可以看作是你踩油门给发动机的指令，消耗的“燃料”就是输入Token。
输出Token： 模型生成的回答内容。这是发动机“排气”出来的结果，过程中也消耗了“燃料”，就是输出Token。

工程启示： 你的“问题”越长，历史对话越多，输入Token就越多，费用就越高。AI“回答”得越详细，输出Token就越多，费用也越高。所以，精简提问，限制回答长度，是成本控制的第一要义。

上下文 (Context)： 模型“记住”的所有内容，是输入Token + 输出Token的总和。你可以理解为AI的“工作台”，它所有思考、理解和生成，都发生在这个工作台上。
上下文窗口 (Context Window)： 模型能“记住”的最大内容量。这就像你电脑的“内存上限”。比如GLM-4.7-Flash的上下文窗口是200,000 Tokens。

工程启示：

“失忆”的原理： 当你的对话不断进行，上下文Token累积超过上下文窗口上限时，模型就会开始“失忆”——它会选择性地“遗忘”最早的对话，以腾出空间。所以，当你抱怨AI“失忆”时，它不是真的“傻”，而是“内存”满了。
成本的关键： 你的所有输入和AI的所有输出，都会占据这个“内存”。而费用通常是按照上下文（输入+输出）来计算的。一个200K的上下文窗口，不代表你可以免费输入200K Tokens，它只是限制了你“能用多大工作台”的上限。
压缩与取舍： 一些模型平台会提供“自动压缩”历史对话的功能。这就像内存管理器的垃圾回收，它会尝试保留最重要的信息，删除冗余内容。但请记住，任何压缩都是有损的，你可能因此丢失一些细微的语境。