先别急着被术语吓到
这几年 AI 圈的新词冒得很快:Token、LLM、Agent、Workflow、Skill、RAG、Tool Calling、Context……看起来像一锅字母汤。
但它们其实没有那么神秘。你可以先把现代 AI 应用想成一个小团队:
- Token 是 AI 读文字时看到的“小碎片”。
- LLM 是那个很会读写和推理的“大脑”。
- Prompt 是你给它的任务说明。
- Context 是它当前能看到的资料。
- RAG 是让它先翻资料再回答。
- Tool Calling 是让它能调用工具,不只是嘴上说说。
- Workflow 是提前写好的固定流程。
- Agent 是能根据情况自己决定下一步的执行者。
- Skill 是某类任务的专用说明书和工具包。
Token:AI 眼里的文字小碎片

在讲 LLM 之前,先认识一个更基础的概念:Token,中文的官方翻译为“词元”。
Token 就像 AI 读文字时看到的“小碎片”。我们看到的是一句完整的话,模型看到的则是一块一块被切开的文本。
比如这句话:
今天天气很好
在模型眼里,它不一定是完整的一句话,而可能会被拆成几个 token。它不完全等于一个汉字,也不完全等于一个词;有时是一个字,有时是词的一部分,有时是标点或代码符号。
不同模型的分词方式可能不一样,所以我们不需要记住某句话具体会被切成几个 token,只要理解它是模型处理文本的基本单位就够了。
LLM 是什么?

LLM 是 Large Language Model,中文叫“大语言模型”。我们平常用到的豆包、元宝、DeepSeek 等 AI 产品或模型,背后通常都离不开大语言模型。
它最核心的能力是:读懂上下文,然后生成接下来最合适的内容。
听起来像“文字接龙”?有点像,但它不是只会机械接词。因为它在训练中看过大量文本、代码、数学、对话和知识材料,所以能学到很多语言背后的模式:
- 这句话大概是什么意思
- 这个问题应该怎么拆
- 哪些代码看起来像 bug
- 一篇文章怎样组织更清楚
- 用户真正想要的可能是什么
比如你说:
西红柿炒番茄怎么做?🤔
LLM 会尝试:
- 理解:这句话大概是什么意思
- 识别:西红柿和番茄其实是同一种东西
- 推测:你是不是想问“西红柿炒鸡蛋怎么做”
- 补救:如果你确实想炒番茄,也可以给你一个能下锅的做法
背后最简单的逻辑:预测下一个 token
如果把大语言模型的底层逻辑讲到最简单,可以这样说:
它每一步都在根据前面的上下文,预测“下一个 token 最可能是什么”。
前面说过,token 是 AI 眼里的“文字小碎片”。AI生成回答时,就是不断根据上下文预测下一个文字小碎片。
比如你输入:
今天天气很
模型会根据它学到的语言规律,给很多可能的下一个 token 分配概率。比如它可能觉得:
好:35%
冷:20%
热:15%
糟:8%
适合:5%
...
然后模型会从这些候选里选出一个,接着继续预测下一个 token。于是文本就像这样一步步长出来:
今天天气很 → 好 → , → 适合 → 出门 → 走走
这也是为什么 LLM 看起来像在“思考”:它不是一次性把整篇回答从脑袋里倒出来,而是在不断根据你的问题、历史对话和已经生成的内容,继续预测后面最合适的 token。
不过这里有个有趣的点:模型通常不会永远选择概率最高的那个 token。否则它的回答会很稳定,但也可能很无聊,像每次点奶茶都只点“少冰三分糖”。所以生成时常常会保留一点随机性,让它能写出更自然、更有变化的回答。
你可以把它想成一个很会接话的人:
- 你说了上半句,它猜下半句。
- 你给了背景,它猜下一步该讲什么。
- 你要求“轻松一点”,它就提高轻松表达的概率。
- 你要求“严谨一点”,它就提高术语、结构化表达和细节解释出现的概率。
所以,你每次和它说的话,并不是在“命令模型背答案”,而是在改变它接下来生成内容的概率分布。Prompt 越清楚,模型越容易把概率集中到你想要的方向上。
这也解释了 LLM的两个特点:
- 它很擅长生成自然语言,因为语言本来就有大量可学习的模式。
- 它可能会一本正经地说错,因为“听起来合理”不等于“事实正确”。

Prompt 和 Context
讲完 Token 和 LLM,再看两个经常一起出现的词:Prompt 和 Context。

Prompt
Prompt 就是你给AI的输入。
它可以很短😅:
给我写一个故事。

也可以很长:
你是一名语文老师。请用优美的语言给我讲一个故事,里面要包括一些典故,为了照顾不知道典故的人,在故事中给出自然的解释。

Prompt 写得好,AI就更容易知道你要什么。
这有点像点奶茶:你说“来一杯”,店员只能给你白眼🙄,然后可能给你一杯洗碗水;你说“珍珠奶茶少冰、三分糖、不要珍珠”,店员就会给你一杯没有珍珠的珍珠奶茶🧋。
Context
Context,中文叫上下文。
你可以把它想象成 AI 当前摊在桌面上的材料:你的提问、历史对话、系统规则、文件内容、工具返回结果,以及它已经生成过的内容,都可能成为上下文的一部分。
AI每次回答时,都会根据这些上下文来继续生成,所以它才能尽量不跑题。
当然,即便是机器,它一次能读取的内容也是有限的。这个限制通常叫 Context Window,也就是上下文窗口。所以真实 AI 系统经常要做一件事:只把当前任务最相关的资料放进上下文。
这就引出了 RAG。
RAG:让 AI 先翻资料再回答

RAG 是 Retrieval-Augmented Generation,中文常译作“检索增强生成”。
这个名字有点硬,翻成人话就是:
不要让AI闭卷瞎答,先让它查资料,再让它回答。📚
一个典型 RAG 流程是:
- 用户提问。
- 系统去知识库里搜索相关资料。
- 把搜到的资料放进模型上下文。
- AI基于这些资料生成答案。
比如你问公司内部助手:
今年差旅报销有什么新规则?
如果只靠 LLM,它可能不知道你公司的最新制度。但如果系统先去内部文档里找“差旅报销”相关段落,再交给模型总结,答案就靠谱得多。
不过 RAG 不是万能的。它也会翻车:
- 检索错资料,答案就会跑偏。
- 资料太碎,模型看不出重点。
- 文档过旧,答案也会过旧。
- 没有引用来源,读者还是不知道能不能信。
Tool Calling:让 AI 不只会说,还能做

AI本身主要负责基于当前上下文生成内容。它不能天然查询天气、读数据库、发邮件、改文件。
Tool Calling,也叫 Function Calling,中文叫工具调用或者功能调用,就是把外部工具告诉AI,让AI在需要时请求调用。
重点来了:AI不是自己偷偷跑去执行工具。一般流程是这样的:
- 应用告诉 AI:你可以使用一个“查找某地天气”的工具。
- 用户问:“柏林今天冷吗?”
- AI 判断:这个问题需要实时天气,于是请求调用查天气工具。
- 应用程序真正执行查询,把天气结果交回 AI。
- AI 结合查到的数据,用自然语言回答用户。
工具可以是很多东西:
- 搜索网页
- 查询数据库
- 执行代码
- 操作浏览器
- 生成图片
Tool Calling 是很多 AI 应用从“聊天玩具”变成“能干活的系统”的关键一步。
Workflow:照着菜谱做事
Workflow 是工作流。
它会把某一项工作拆成一个个步骤。当你需要 AI 做这件事时,系统会让它按照预定流程去完成。
比如一个“西红柿炒鸡蛋”workflow:
- 先切西红柿。
- 再打鸡蛋。
- 锅中热油。
- 先炒鸡蛋,再炒西红柿。
- 混合翻炒,加入适量调料。
这个流程的重点是:路线提前写好了。AI 可以参与其中某一步,比如判断调料该怎么写得更清楚,但整体顺序不是它临场自由发挥。
Agent:会自己决定下一步的 AI 系统

Agent 是现在最火、也最容易被讲玄乎的词。它翻译过来应该叫智能体,它可以自己帮你处理好一个任务。
一个 Agent 的循环大概是:
- 理解目标。
- 制定下一步。
- 选择工具。
- 调用工具。
- 观察结果。
- 判断是否完成。
- 没完成就继续。
比如你说:
帮我做一个周末去东京的旅行计划,预算不要太高,最好能安排交通、住宿和每天去哪玩。
一个 Agent 可能会自己决定:
- 先确认出发城市、日期和预算
- 查询航班或火车等交通方案
- 比较几个住宿区域的价格和便利程度
- 根据天气、距离和开放时间安排每天的行程
- 发现预算超了,就调整酒店或景点顺序
- 最后整理成一份清晰的旅行计划
这和 workflow 的区别在于:
- Workflow:路线提前写好。
- Agent:路线可以边走边决定。
可以把 workflow 想成“导航路线已经规划好”,agent 更像“带着地图和工具自己探索怎么到目的地”。
举个生活一点的例子:如果你说“照这个菜谱做西红柿炒鸡蛋”,那更像 workflow;如果你说“冰箱里有番茄、鸡蛋、半根葱,帮我想今晚做什么并列购物清单”,那就更像 agent,因为它需要自己判断目标、检查条件、安排步骤。
Skill:给 AI 的专业小抄
Skill 可以理解为某类任务的“专用能力包”。
它通常包含:
- 什么时候应该使用这个 skill
- 做这类任务的步骤
- 需要遵守的规则
- 可复用的模板
- 相关脚本
- 示例和参考资料
比如一个“写作”的 skill 可能会写:
- 先判断读者是谁
- 再确定文章想表达什么
- 结构要清楚,别一上来就堆概念
- 语言要自然,避免像说明书一样硬邦邦
- 结尾帮读者带走一个清晰观点
Prompt 是这一次怎么做,Skill 是以后遇到这类任务都按这套方法做。
Memory:AI 真的会记住你吗?
Memory 也是热门词。
但它容易被误解。AI 的 memory 不一定是“像人一样记忆”。在产品和系统里,memory 通常指保存一些对未来任务有用的信息,比如:
- 用户偏好
- 项目背景
- 常用格式
- 已完成任务
- 长期目标
比如你总是希望AI的聊天语气“轻松一点,有活人感一点”,系统可以把这个偏好保存下来,下次自动应用。
Memory 的好处是个性化,风险是隐私和错误积累。如果系统记错了你的偏好,它以后可能一直错下去。
Multimodal:不只看文字
Multimodal 指多模态。
传统语言模型主要处理文本。多模态模型可以处理更多类型的信息:
- 文本
- 图片
- 音频
- 视频
- 屏幕截图
- 文件
比如你发一张 UI 截图,让 AI 说哪里布局不舒服;或者给它一张数学题照片,让它讲解步骤;或者让它听一段会议录音,整理纪要。
多模态让 AI 更接近真实工作场景,因为人的工作本来就不只是一行文字。
总结
LLM 是现代 AI 的核心,但它不是全部。
RAG 让模型带资料回答,Tool Calling 让模型能使用工具,Workflow 让任务稳定执行,Agent 让模型能动态决策,Skill 让经验可以复用。
所以以后再看到一个 AI 产品,你可以问几个问题:
-
它是否是多模态?能否处理图片或者文件?
-
它只是聊天,还是能调用工具?
-
它的答案来自模型记忆,还是来自 RAG 检索?
-
它走的是固定 workflow,还是 agent 自己决定步骤?
-
它有没有 skill 来沉淀专业任务?
能回答这些问题,你就已经不只是“听懂 AI 热词”了,而是在看它背后的系统设计。