先别急着被术语吓到

这几年 AI 圈的新词冒得很快：Token、LLM、Agent、Workflow、Skill、RAG、Tool Calling、Context……看起来像一锅字母汤。

但它们其实没有那么神秘。你可以先把现代 AI 应用想成一个小团队：

Token 是 AI 读文字时看到的“小碎片”。
LLM 是那个很会读写和推理的“大脑”。
Prompt 是你给它的任务说明。
Context 是它当前能看到的资料。
RAG 是让它先翻资料再回答。
Tool Calling 是让它能调用工具，不只是嘴上说说。
Workflow 是提前写好的固定流程。
Agent 是能根据情况自己决定下一步的执行者。
Skill 是某类任务的专用说明书和工具包。

Token：AI 眼里的文字小碎片

在讲 LLM 之前，先认识一个更基础的概念：Token，中文的官方翻译为“词元”。

Token 就像 AI 读文字时看到的“小碎片”。我们看到的是一句完整的话，模型看到的则是一块一块被切开的文本。

比如这句话：

今天天气很好

在模型眼里，它不一定是完整的一句话，而可能会被拆成几个 token。它不完全等于一个汉字，也不完全等于一个词；有时是一个字，有时是词的一部分，有时是标点或代码符号。

不同模型的分词方式可能不一样，所以我们不需要记住某句话具体会被切成几个 token，只要理解它是模型处理文本的基本单位就够了。

LLM 是什么？

LLM 是 Large Language Model，中文叫“大语言模型”。我们平常用到的豆包、元宝、DeepSeek 等 AI 产品或模型，背后通常都离不开大语言模型。

它最核心的能力是：读懂上下文，然后生成接下来最合适的内容。

听起来像“文字接龙”？有点像，但它不是只会机械接词。因为它在训练中看过大量文本、代码、数学、对话和知识材料，所以能学到很多语言背后的模式：

这句话大概是什么意思
这个问题应该怎么拆
哪些代码看起来像 bug
一篇文章怎样组织更清楚
用户真正想要的可能是什么

比如你说：

西红柿炒番茄怎么做？🤔

LLM 会尝试：

理解：这句话大概是什么意思
识别：西红柿和番茄其实是同一种东西
推测：你是不是想问“西红柿炒鸡蛋怎么做”
补救：如果你确实想炒番茄，也可以给你一个能下锅的做法

背后最简单的逻辑：预测下一个 token

如果把大语言模型的底层逻辑讲到最简单，可以这样说：

它每一步都在根据前面的上下文，预测“下一个 token 最可能是什么”。

前面说过，token 是 AI 眼里的“文字小碎片”。AI生成回答时，就是不断根据上下文预测下一个文字小碎片。

比如你输入：

今天天气很

模型会根据它学到的语言规律，给很多可能的下一个 token 分配概率。比如它可能觉得：

好：35%
冷：20%
热：15%
糟：8%
适合：5%
...

然后模型会从这些候选里选出一个，接着继续预测下一个 token。于是文本就像这样一步步长出来：

今天天气很 → 好 → ， → 适合 → 出门 → 走走

这也是为什么 LLM 看起来像在“思考”：它不是一次性把整篇回答从脑袋里倒出来，而是在不断根据你的问题、历史对话和已经生成的内容，继续预测后面最合适的 token。

不过这里有个有趣的点：模型通常不会永远选择概率最高的那个 token。否则它的回答会很稳定，但也可能很无聊，像每次点奶茶都只点“少冰三分糖”。所以生成时常常会保留一点随机性，让它能写出更自然、更有变化的回答。

你可以把它想成一个很会接话的人：

你说了上半句，它猜下半句。
你给了背景，它猜下一步该讲什么。
你要求“轻松一点”，它就提高轻松表达的概率。
你要求“严谨一点”，它就提高术语、结构化表达和细节解释出现的概率。

所以，你每次和它说的话，并不是在“命令模型背答案”，而是在改变它接下来生成内容的概率分布。Prompt 越清楚，模型越容易把概率集中到你想要的方向上。

这也解释了 LLM的两个特点：

它很擅长生成自然语言，因为语言本来就有大量可学习的模式。
它可能会一本正经地说错，因为“听起来合理”不等于“事实正确”。

截屏2026-05-28 17.10.04

Prompt 和 Context

讲完 Token 和 LLM，再看两个经常一起出现的词：Prompt 和 Context。

Prompt

Prompt 就是你给AI的输入。

它可以很短😅：

给我写一个故事。

截屏2026-05-28 17.14.22

也可以很长：

你是一名语文老师。请用优美的语言给我讲一个故事，里面要包括一些典故，为了照顾不知道典故的人，在故事中给出自然的解释。

截屏2026-05-28 17.15.59

Prompt 写得好，AI就更容易知道你要什么。

这有点像点奶茶：你说“来一杯”，店员只能给你白眼🙄，然后可能给你一杯洗碗水；你说“珍珠奶茶少冰、三分糖、不要珍珠”，店员就会给你一杯没有珍珠的珍珠奶茶🧋。

Context

Context，中文叫上下文。

你可以把它想象成 AI 当前摊在桌面上的材料：你的提问、历史对话、系统规则、文件内容、工具返回结果，以及它已经生成过的内容，都可能成为上下文的一部分。

AI每次回答时，都会根据这些上下文来继续生成，所以它才能尽量不跑题。

当然，即便是机器，它一次能读取的内容也是有限的。这个限制通常叫 Context Window，也就是上下文窗口。所以真实 AI 系统经常要做一件事：只把当前任务最相关的资料放进上下文。

这就引出了 RAG。

RAG：让 AI 先翻资料再回答

RAG 是 Retrieval-Augmented Generation，中文常译作“检索增强生成”。

这个名字有点硬，翻成人话就是：

不要让AI闭卷瞎答，先让它查资料，再让它回答。📚

一个典型 RAG 流程是：

用户提问。
系统去知识库里搜索相关资料。
把搜到的资料放进模型上下文。
AI基于这些资料生成答案。

比如你问公司内部助手：

今年差旅报销有什么新规则？

如果只靠 LLM，它可能不知道你公司的最新制度。但如果系统先去内部文档里找“差旅报销”相关段落，再交给模型总结，答案就靠谱得多。

不过 RAG 不是万能的。它也会翻车：

检索错资料，答案就会跑偏。
资料太碎，模型看不出重点。
文档过旧，答案也会过旧。
没有引用来源，读者还是不知道能不能信。

Tool Calling：让 AI 不只会说，还能做

AI本身主要负责基于当前上下文生成内容。它不能天然查询天气、读数据库、发邮件、改文件。

Tool Calling，也叫 Function Calling，中文叫工具调用或者功能调用，就是把外部工具告诉AI，让AI在需要时请求调用。

重点来了：AI不是自己偷偷跑去执行工具。一般流程是这样的：

应用告诉 AI：你可以使用一个“查找某地天气”的工具。
用户问：“柏林今天冷吗？”
AI 判断：这个问题需要实时天气，于是请求调用查天气工具。
应用程序真正执行查询，把天气结果交回 AI。
AI 结合查到的数据，用自然语言回答用户。

工具可以是很多东西：

搜索网页
查询数据库
执行代码
操作浏览器
生成图片

Tool Calling 是很多 AI 应用从“聊天玩具”变成“能干活的系统”的关键一步。

Workflow：照着菜谱做事

Workflow 是工作流。

它会把某一项工作拆成一个个步骤。当你需要 AI 做这件事时，系统会让它按照预定流程去完成。

比如一个“西红柿炒鸡蛋”workflow：

先切西红柿。
再打鸡蛋。
锅中热油。
先炒鸡蛋，再炒西红柿。
混合翻炒，加入适量调料。

这个流程的重点是：路线提前写好了。AI 可以参与其中某一步，比如判断调料该怎么写得更清楚，但整体顺序不是它临场自由发挥。

Agent：会自己决定下一步的 AI 系统

Agent 是现在最火、也最容易被讲玄乎的词。它翻译过来应该叫智能体，它可以自己帮你处理好一个任务。

一个 Agent 的循环大概是：

理解目标。
制定下一步。
选择工具。
调用工具。
观察结果。
判断是否完成。
没完成就继续。

比如你说：

帮我做一个周末去东京的旅行计划，预算不要太高，最好能安排交通、住宿和每天去哪玩。

一个 Agent 可能会自己决定：

先确认出发城市、日期和预算
查询航班或火车等交通方案
比较几个住宿区域的价格和便利程度
根据天气、距离和开放时间安排每天的行程
发现预算超了，就调整酒店或景点顺序
最后整理成一份清晰的旅行计划

这和 workflow 的区别在于：

Workflow：路线提前写好。
Agent：路线可以边走边决定。

可以把 workflow 想成“导航路线已经规划好”，agent 更像“带着地图和工具自己探索怎么到目的地”。

举个生活一点的例子：如果你说“照这个菜谱做西红柿炒鸡蛋”，那更像 workflow；如果你说“冰箱里有番茄、鸡蛋、半根葱，帮我想今晚做什么并列购物清单”，那就更像 agent，因为它需要自己判断目标、检查条件、安排步骤。

Skill：给 AI 的专业小抄

Skill 可以理解为某类任务的“专用能力包”。

它通常包含：

什么时候应该使用这个 skill
做这类任务的步骤
需要遵守的规则
可复用的模板
相关脚本
示例和参考资料

比如一个“写作”的 skill 可能会写：

先判断读者是谁
再确定文章想表达什么
结构要清楚，别一上来就堆概念
语言要自然，避免像说明书一样硬邦邦
结尾帮读者带走一个清晰观点

Prompt 是这一次怎么做，Skill 是以后遇到这类任务都按这套方法做。

Memory：AI 真的会记住你吗？

Memory 也是热门词。

但它容易被误解。AI 的 memory 不一定是“像人一样记忆”。在产品和系统里，memory 通常指保存一些对未来任务有用的信息，比如：

用户偏好
项目背景
常用格式
已完成任务
长期目标

比如你总是希望AI的聊天语气“轻松一点，有活人感一点”，系统可以把这个偏好保存下来，下次自动应用。

Memory 的好处是个性化，风险是隐私和错误积累。如果系统记错了你的偏好，它以后可能一直错下去。

Multimodal：不只看文字

Multimodal 指多模态。

传统语言模型主要处理文本。多模态模型可以处理更多类型的信息：

文本
图片
音频
视频
屏幕截图
文件

比如你发一张 UI 截图，让 AI 说哪里布局不舒服；或者给它一张数学题照片，让它讲解步骤；或者让它听一段会议录音，整理纪要。

多模态让 AI 更接近真实工作场景，因为人的工作本来就不只是一行文字。

总结

LLM 是现代 AI 的核心，但它不是全部。

RAG 让模型带资料回答，Tool Calling 让模型能使用工具，Workflow 让任务稳定执行，Agent 让模型能动态决策，Skill 让经验可以复用。

所以以后再看到一个 AI 产品，你可以问几个问题：

它是否是多模态？能否处理图片或者文件？
它只是聊天，还是能调用工具？
它的答案来自模型记忆，还是来自 RAG 检索？
它走的是固定 workflow，还是 agent 自己决定步骤？
它有没有 skill 来沉淀专业任务？

能回答这些问题，你就已经不只是“听懂 AI 热词”了，而是在看它背后的系统设计。

先别急着被术语吓到#

Token：AI 眼里的文字小碎片#

LLM 是什么？#

背后最简单的逻辑：预测下一个 token#

Prompt 和 Context#

Prompt#

Context#

RAG：让 AI 先翻资料再回答#

Tool Calling：让 AI 不只会说，还能做#

Workflow：照着菜谱做事#

Agent：会自己决定下一步的 AI 系统#

Skill：给 AI 的专业小抄#

Memory：AI 真的会记住你吗？#

Multimodal：不只看文字#

总结#