先别急着被术语吓到

这几年 AI 圈的新词冒得很快:Token、LLM、Agent、Workflow、Skill、RAG、Tool Calling、Context……看起来像一锅字母汤。

但它们其实没有那么神秘。你可以先把现代 AI 应用想成一个小团队:

  • Token 是 AI 读文字时看到的“小碎片”。
  • LLM 是那个很会读写和推理的“大脑”。
  • Prompt 是你给它的任务说明。
  • Context 是它当前能看到的资料。
  • RAG 是让它先翻资料再回答。
  • Tool Calling 是让它能调用工具,不只是嘴上说说。
  • Workflow 是提前写好的固定流程。
  • Agent 是能根据情况自己决定下一步的执行者。
  • Skill 是某类任务的专用说明书和工具包。

Token:AI 眼里的文字小碎片

image-20260528180928469

在讲 LLM 之前,先认识一个更基础的概念:Token,中文的官方翻译为“词元”。

Token 就像 AI 读文字时看到的“小碎片”。我们看到的是一句完整的话,模型看到的则是一块一块被切开的文本。

比如这句话:

今天天气很好

在模型眼里,它不一定是完整的一句话,而可能会被拆成几个 token。它不完全等于一个汉字,也不完全等于一个词;有时是一个字,有时是词的一部分,有时是标点或代码符号。

不同模型的分词方式可能不一样,所以我们不需要记住某句话具体会被切成几个 token,只要理解它是模型处理文本的基本单位就够了。

LLM 是什么?

image-20260528180958360

LLM 是 Large Language Model,中文叫“大语言模型”。我们平常用到的豆包、元宝、DeepSeek 等 AI 产品或模型,背后通常都离不开大语言模型。

它最核心的能力是:读懂上下文,然后生成接下来最合适的内容。

听起来像“文字接龙”?有点像,但它不是只会机械接词。因为它在训练中看过大量文本、代码、数学、对话和知识材料,所以能学到很多语言背后的模式:

  • 这句话大概是什么意思
  • 这个问题应该怎么拆
  • 哪些代码看起来像 bug
  • 一篇文章怎样组织更清楚
  • 用户真正想要的可能是什么

比如你说:

西红柿炒番茄怎么做?🤔

LLM 会尝试:

  • 理解:这句话大概是什么意思
  • 识别:西红柿和番茄其实是同一种东西
  • 推测:你是不是想问“西红柿炒鸡蛋怎么做”
  • 补救:如果你确实想炒番茄,也可以给你一个能下锅的做法

背后最简单的逻辑:预测下一个 token

如果把大语言模型的底层逻辑讲到最简单,可以这样说:

它每一步都在根据前面的上下文,预测“下一个 token 最可能是什么”。

前面说过,token 是 AI 眼里的“文字小碎片”。AI生成回答时,就是不断根据上下文预测下一个文字小碎片。

比如你输入:

今天天气很

模型会根据它学到的语言规律,给很多可能的下一个 token 分配概率。比如它可能觉得:

好:35%
冷:20%
热:15%
糟:8%
适合:5%
...

然后模型会从这些候选里选出一个,接着继续预测下一个 token。于是文本就像这样一步步长出来:

今天天气很 → 好 → , → 适合 → 出门 → 走走

这也是为什么 LLM 看起来像在“思考”:它不是一次性把整篇回答从脑袋里倒出来,而是在不断根据你的问题、历史对话和已经生成的内容,继续预测后面最合适的 token。

不过这里有个有趣的点:模型通常不会永远选择概率最高的那个 token。否则它的回答会很稳定,但也可能很无聊,像每次点奶茶都只点“少冰三分糖”。所以生成时常常会保留一点随机性,让它能写出更自然、更有变化的回答。

你可以把它想成一个很会接话的人:

  • 你说了上半句,它猜下半句。
  • 你给了背景,它猜下一步该讲什么。
  • 你要求“轻松一点”,它就提高轻松表达的概率。
  • 你要求“严谨一点”,它就提高术语、结构化表达和细节解释出现的概率。

所以,你每次和它说的话,并不是在“命令模型背答案”,而是在改变它接下来生成内容的概率分布。Prompt 越清楚,模型越容易把概率集中到你想要的方向上。

这也解释了 LLM的两个特点:

  • 它很擅长生成自然语言,因为语言本来就有大量可学习的模式。
  • 它可能会一本正经地说错,因为“听起来合理”不等于“事实正确”。

截屏2026-05-28 17.10.04

Prompt 和 Context

讲完 Token 和 LLM,再看两个经常一起出现的词:Prompt 和 Context。

image-20260528181217218

Prompt

Prompt 就是你给AI的输入。

它可以很短😅:

给我写一个故事。

截屏2026-05-28 17.14.22

也可以很长:

你是一名语文老师。请用优美的语言给我讲一个故事,里面要包括一些典故,为了照顾不知道典故的人,在故事中给出自然的解释。

截屏2026-05-28 17.15.59

Prompt 写得好,AI就更容易知道你要什么。

这有点像点奶茶:你说“来一杯”,店员只能给你白眼🙄,然后可能给你一杯洗碗水;你说“珍珠奶茶少冰、三分糖、不要珍珠”,店员就会给你一杯没有珍珠的珍珠奶茶🧋。

Context

Context,中文叫上下文。

你可以把它想象成 AI 当前摊在桌面上的材料:你的提问、历史对话、系统规则、文件内容、工具返回结果,以及它已经生成过的内容,都可能成为上下文的一部分。

AI每次回答时,都会根据这些上下文来继续生成,所以它才能尽量不跑题。

当然,即便是机器,它一次能读取的内容也是有限的。这个限制通常叫 Context Window,也就是上下文窗口。所以真实 AI 系统经常要做一件事:只把当前任务最相关的资料放进上下文。

这就引出了 RAG。

RAG:让 AI 先翻资料再回答

image-20260528181409667

RAG 是 Retrieval-Augmented Generation,中文常译作“检索增强生成”。

这个名字有点硬,翻成人话就是:

不要让AI闭卷瞎答,先让它查资料,再让它回答。📚

一个典型 RAG 流程是:

  1. 用户提问。
  2. 系统去知识库里搜索相关资料。
  3. 把搜到的资料放进模型上下文。
  4. AI基于这些资料生成答案。

比如你问公司内部助手:

今年差旅报销有什么新规则?

如果只靠 LLM,它可能不知道你公司的最新制度。但如果系统先去内部文档里找“差旅报销”相关段落,再交给模型总结,答案就靠谱得多。

不过 RAG 不是万能的。它也会翻车:

  • 检索错资料,答案就会跑偏。
  • 资料太碎,模型看不出重点。
  • 文档过旧,答案也会过旧。
  • 没有引用来源,读者还是不知道能不能信。

Tool Calling:让 AI 不只会说,还能做

image-20260528181656181

AI本身主要负责基于当前上下文生成内容。它不能天然查询天气、读数据库、发邮件、改文件。

Tool Calling,也叫 Function Calling,中文叫工具调用或者功能调用,就是把外部工具告诉AI,让AI在需要时请求调用。

重点来了:AI不是自己偷偷跑去执行工具。一般流程是这样的:

  1. 应用告诉 AI:你可以使用一个“查找某地天气”的工具。
  2. 用户问:“柏林今天冷吗?”
  3. AI 判断:这个问题需要实时天气,于是请求调用查天气工具。
  4. 应用程序真正执行查询,把天气结果交回 AI。
  5. AI 结合查到的数据,用自然语言回答用户。

工具可以是很多东西:

  • 搜索网页
  • 查询数据库
  • 执行代码
  • 操作浏览器
  • 生成图片

Tool Calling 是很多 AI 应用从“聊天玩具”变成“能干活的系统”的关键一步。

Workflow:照着菜谱做事

Workflow 是工作流。

它会把某一项工作拆成一个个步骤。当你需要 AI 做这件事时,系统会让它按照预定流程去完成。

比如一个“西红柿炒鸡蛋”workflow:

  1. 先切西红柿。
  2. 再打鸡蛋。
  3. 锅中热油。
  4. 先炒鸡蛋,再炒西红柿。
  5. 混合翻炒,加入适量调料。

这个流程的重点是:路线提前写好了。AI 可以参与其中某一步,比如判断调料该怎么写得更清楚,但整体顺序不是它临场自由发挥。

Agent:会自己决定下一步的 AI 系统

image-20260528181919129

Agent 是现在最火、也最容易被讲玄乎的词。它翻译过来应该叫智能体,它可以自己帮你处理好一个任务。

一个 Agent 的循环大概是:

  1. 理解目标。
  2. 制定下一步。
  3. 选择工具。
  4. 调用工具。
  5. 观察结果。
  6. 判断是否完成。
  7. 没完成就继续。

比如你说:

帮我做一个周末去东京的旅行计划,预算不要太高,最好能安排交通、住宿和每天去哪玩。

一个 Agent 可能会自己决定:

  • 先确认出发城市、日期和预算
  • 查询航班或火车等交通方案
  • 比较几个住宿区域的价格和便利程度
  • 根据天气、距离和开放时间安排每天的行程
  • 发现预算超了,就调整酒店或景点顺序
  • 最后整理成一份清晰的旅行计划

这和 workflow 的区别在于:

  • Workflow:路线提前写好。
  • Agent:路线可以边走边决定。

可以把 workflow 想成“导航路线已经规划好”,agent 更像“带着地图和工具自己探索怎么到目的地”。

举个生活一点的例子:如果你说“照这个菜谱做西红柿炒鸡蛋”,那更像 workflow;如果你说“冰箱里有番茄、鸡蛋、半根葱,帮我想今晚做什么并列购物清单”,那就更像 agent,因为它需要自己判断目标、检查条件、安排步骤。

Skill:给 AI 的专业小抄

Skill 可以理解为某类任务的“专用能力包”。

它通常包含:

  • 什么时候应该使用这个 skill
  • 做这类任务的步骤
  • 需要遵守的规则
  • 可复用的模板
  • 相关脚本
  • 示例和参考资料

比如一个“写作”的 skill 可能会写:

  • 先判断读者是谁
  • 再确定文章想表达什么
  • 结构要清楚,别一上来就堆概念
  • 语言要自然,避免像说明书一样硬邦邦
  • 结尾帮读者带走一个清晰观点

Prompt 是这一次怎么做,Skill 是以后遇到这类任务都按这套方法做。

Memory:AI 真的会记住你吗?

Memory 也是热门词。

但它容易被误解。AI 的 memory 不一定是“像人一样记忆”。在产品和系统里,memory 通常指保存一些对未来任务有用的信息,比如:

  • 用户偏好
  • 项目背景
  • 常用格式
  • 已完成任务
  • 长期目标

比如你总是希望AI的聊天语气“轻松一点,有活人感一点”,系统可以把这个偏好保存下来,下次自动应用。

Memory 的好处是个性化,风险是隐私和错误积累。如果系统记错了你的偏好,它以后可能一直错下去。

Multimodal:不只看文字

Multimodal 指多模态。

传统语言模型主要处理文本。多模态模型可以处理更多类型的信息:

  • 文本
  • 图片
  • 音频
  • 视频
  • 屏幕截图
  • 文件

比如你发一张 UI 截图,让 AI 说哪里布局不舒服;或者给它一张数学题照片,让它讲解步骤;或者让它听一段会议录音,整理纪要。

多模态让 AI 更接近真实工作场景,因为人的工作本来就不只是一行文字。

总结

LLM 是现代 AI 的核心,但它不是全部。

RAG 让模型带资料回答,Tool Calling 让模型能使用工具,Workflow 让任务稳定执行,Agent 让模型能动态决策,Skill 让经验可以复用。

所以以后再看到一个 AI 产品,你可以问几个问题:

  • 它是否是多模态?能否处理图片或者文件?

  • 它只是聊天,还是能调用工具?

  • 它的答案来自模型记忆,还是来自 RAG 检索?

  • 它走的是固定 workflow,还是 agent 自己决定步骤?

  • 它有没有 skill 来沉淀专业任务?

能回答这些问题,你就已经不只是“听懂 AI 热词”了,而是在看它背后的系统设计。