李宏毅：从零开始搞懂 AI Agent_产品经理|产品经理|PM老猫

哈喽大家好，我是薛老板。这篇文章是对李宏毅老师2025年在油管上最新视频的解读，主题是 AI Agent。

正好最近《AIGC产品经理实战训练营》的小伙伴面试，让我推荐关于Agent通俗易懂的资料，思来想去李宏毅老师的视频讲解的案例很适合，如有侵权可联系删除。

我会从Agent定义讲起，一步步剖析 AI Agent 的本质、工作原理、关键能力、优缺点、未来展望等维度讲解。

引言：AI Agent 是什么？为什么它突然火了？

最近科技圈的热门话题里，"AI Agent"绝对是个高频词汇。

其实这个概念早在2023年就掀起过一波热潮，当时AutoGPT和MetaGPT的横空出世让人们对它充满期待。

如今，在大模型技术持续升级的推动下，2025年AI Agent重新成为行业关注的焦点。

你可以把它理解为一个拥有自主决策能力的智能管家。比如你只需要交代一句："帮我订一张2000元以内的上海机票"，它就能自动完成查询航班、比较价格、填写信息等一系列操作，最终帮你搞定机票。

这正是AI Agent的精髓所在——

它不会被动等待指令，而是主动寻找解决方案。

这与我们熟悉的ChatGPT、Deepseek等对话式AI有所不同。后者更像是一个"有问必答"的聊天伙伴，而AI Agent则是一位能够"主动出击"的智能执行者。

一、AI Agent 的本质——从「听话」到「主动」

1.1 AI Agent 和普通 AI 的区别

要理解AI Agent和普通AI的区别，我们可以从它们的工作方式来看。

举个例子，如果你问ChatGPT："AI Agent用中文怎么说？" 它会直接回答："AI Agent的中文是'人工智能代理'。" 这就是传统AI的工作模式——你输入指令，它给出结果，任务结束。

但AI Agent完全不同。如果你对它说："帮我研究AI Agent的定义"，它不会简单地回复一句话，而是会主动搜索资料、对比不同来源、分析关键信息，最终给你一份完整的分析报告。

用更形象的比喻来说：

普通AI：像一台自动贩卖机，你按下按钮，它就给你对应的商品。
AI Agent：像一位私人助理，你告诉它需求，它会自己规划步骤、执行任务，直到达成目标。

就像李宏毅教授所说，传统AI是"指令驱动"，而AI Agent是"目标驱动"——你只需要指明方向，剩下的交给它来完成。

以一个「研究任务」为例，展示AI Agent如何工作：

1.2 AI Agent 的定义和工作循环

让我们深入解析AI Agent的工作原理。视频中展示的核心框架可以用一个闭环流程来描述：

目标设定 - 接收人类指令（如"赢得围棋比赛"）
环境感知 - 获取当前状态（如扫描棋盘布局）
决策执行 - 采取具体行动（如在5-7位置落子）
反馈更新 - 观察行动结果（如对手的应对）
持续迭代 - 循环执行直至目标达成

以AlphaGo为例：
• 终极目标：取得胜利
• 实时输入：解析棋盘局势
• 战术输出：执行最优落子
• 动态调整：应对对手棋路

这种"感知-决策-行动-反馈"的运作机制，本质上模拟了人类解决问题的思维过程：分析现状、制定策略、实施方案、评估效果并持续优化。

这个工作循环体现了 AI Agent 的自主性和反应式架构——像人类一样通过试错逼近目标，而非单纯执行预设指令。

1.3 为啥 AI Agent 跟强化学习（RL）有关？

熟悉机器学习的朋友可能会发现，这个运作机制似曾相识。

没错，它和强化学习（Reinforcement Learning）的核心逻辑高度吻合。强化学习的关键在于让AI通过不断尝试来优化"奖励值"——以AlphaGo为例，获胜时获得+1奖励，落败时得到-1惩罚，经过海量对局训练后，它就能掌握制胜策略。

但传统AI Agent存在明显局限：它们通常是为单一任务专门训练的。比如专攻围棋的AlphaGo，如果要改下国际象棋，就得从零开始重新训练一个新模型，这种"一事一练"的模式显然不够灵活。

这正是当前AI Agent再度走红的关键突破——

现在我们有了更聪明的解决方案：直接让大语言模型（LLM）担任Agent的角色。这种新型Agent无需针对每个新任务重新训练，一个模型就能应对多种需求，真正实现了"一专多能"。

二、AI Agent 的「新灵魂」——大型语言模型（LLM）

2.1 LLM 如何变身 AI Agent？

传统基于强化学习的AI Agent存在明显的功能限制：每个模型只能执行特定任务。但随着大语言模型（LLM）的出现，游戏规则彻底改变了。

LLM最突出的优势在于其
多任务处理能力
——不仅能进行文本理解、智能问答、代码生成，还能实现跨模态的图文交互。

那么，能否直接让LLM担任AI Agent的角色呢？

实践证明完全可行！基于LLM的AI Agent是这样运作的：

文字化目标输入：
例如"请帮我赢得围棋比赛"
环境信息文本/图像化：
棋盘状态可转为文字描述（"黑子位于A1，白子位于B2"）或直接输入棋盘图像
文字指令输出：
LLM生成"建议在C3位置落子"的文本，由执行系统转化为实际操作
动态迭代执行：
环境更新后，LLM持续观察并输出新的行动方案与强化学习的本质区别在于：LLM无需专门训练，仅凭其预训练获得的世界知识就能"推理"出合理行动方案。
这种"开箱即用"的特性，让AI Agent的开发效率获得了质的飞跃。

2.2 LLM 做 Agent 的优缺点

优点

灵活性：不像 AlphaGo 只能下围棋，LLM 能处理各种任务，只要你能用文字描述目标。

无需定义 Reward：RL 得手工设计奖励函数（比如「赢棋 +1」），但这很难调。LLM 直接读懂目标和反馈，比如给它个错误日志，它自己就能改代码，不用你说「错一次 -1」。

无限可能：LLM 能输出任何文字，行动空间几乎无限制，而 AlphaGo 只能在 19×19 的棋盘里挑一个点。

缺点

不靠谱：LLM 本质是「文字接龙机」，它可能瞎猜一步，而不是深思熟虑。

依赖描述：环境得转成文字或图片，如果描述不清楚，它就懵了。

前一段有一个新闻，有人让 ChatGPT 和 DeepSeek 下象棋，结果它们把「兵」当「马」跳，还凭空变出棋子，最后 DeepSeek 吃了自己一子宣布胜利，ChatGPT 还认输了……这说明，LLM 做 Agent 还得磨练。

三、AI Agent 的三大关键能力

视频里把 AI Agent 的能力拆成三块：根据经验调整行为、使用工具、做计划。这三点决定了它能不能从「听话工具」进化成「聪明助手」。

3.1 根据经验调整行为

这个能力为什么重要？

人类做事靠经验，AI Agent 也一样。比如你写代码报错，编译器告诉你「缺个分号」，下次你就记得加分号。

AI Agent 得有类似能力，看到反馈后调整下一步。

LLM 怎么做到？

LLM 不用调参数，直接把反馈塞进输入，它就变聪明了。比如：

输入：「写个加法函数。」

输出：「def add(a, b): return a + b」

反馈：「有错，b 没定义类型。」

新输入：「写个加法函数，反馈说 b 没定义类型。」

新输出：「def add(a: int, b: int) -> int: return a + b」

这靠的是 LLM 的「上下文学习」能力，不用训练，输入变了，输出就变。

挑战：记忆爆炸

如果每次行动都把历史全塞给 LLM，步数一多（比如 1 万步），输入就太长，算力撑不住。怎么办？视频中提了三个模块：

Write（写入）：决定啥值得记。比如「桌子在那儿」不重要，「对手下了关键一步」才记。

Read（读取）：从记忆里挑相关经验，像 RAG（检索增强生成）技术，从海量数据里找有用的。

Reflection（反思）：总结经验，比如「对手老爱走中间，我得防着点」。

实验发现，正面反馈（「这步对了」）比负面反馈（「这步错了」）更有效，因为 LLM 更擅长照着「好例子」学。

3.2 使用工具

为什么需要工具？

LLM 再强，也有短板。比如它不会直接查天气，得靠外部工具。工具就像 AI Agent 的「外挂」，让它能干更多事。

怎么用？

一个通用方法：

告诉它工具咋用：比如用 Temperature(地点, 时间) 查温度。

输入问题：今天北京多热？

输出指令：[Tool] Temperature(北京, 现在) [Tool]

执行并反馈：[Output] 28°C [Output]

最终回答：北京现在 28°C。

常用工具包括：

搜索引擎：查资料（RAG）。

代码执行器：写程序并运行。

其他 AI：比如让语音 AI 帮它听音频。

挑战：工具多了咋办？

工具一多（比如上千个），LLM 不可能全记住。解决办法是用「工具选择模块」，像 RAG 一样，从工具库里挑合适的。更有趣的是，LLM 还能自己写代码造工具，存起来复用。

小心工具出错

工具可能给错信息，比如搜索引擎搜到恶搞贴说「披萨起司用胶水粘」。LLM 有一定判断力（比如「1 万度太离谱」），但有时也会被忽悠，得教它别太信工具。

3.3 做计划

什么是计划？

计划就是先想好步骤再行动。比如刷牙：找牙刷 → 挤牙膏 → 刷 → 漱口。AI Agent 也得会规划，不然每步都随机试，太笨了。

LLM 能规划吗？

能，但不完美。给它说「做百万订阅 YouTuber」，它能列个计划：选主题 → 优化标题 → 做直播……听起来不错，但细节常出错。比如安排旅行，它可能忘了预算限制，或者行程撞车。

怎么提升？

有几个思路：

试错法（Tree Search）：每步都试试，挑最好的。但算力成本高，得剪掉没希望的路。

脑内模拟（World Model）：让 LLM 自己猜下一步会咋样，像做梦一样规划。比如网页买东西，它先想象「点这个会跳到哪」。

用工具帮忙：复杂限制（像预算）交给专门的求解器，LLM 只管写代码调用。

四、未来展望

4.1 AI Agent能干啥？

游戏：AI NPC自己聊天、办派对，甚至建社区。

用电脑：订 Pizza、买票，像人类一样操作屏幕。

科研：提研究提案、做实验。

训练 AI：写代码跑模型，调参数，比 baseline。

4.2 短板在哪？

不稳定：下棋能胡来，旅行计划超预算。

依赖环境描述：描述不清就抓瞎。

想太多或太少：要么卡在脑内模拟，要么直接放弃。

4.3 AI Agent 离「全能助手」还有多远？

实时互动：像语音对话，得随时调整，不能一问一答。

更好记忆：挑重要经验，别记鸡毛蒜皮。

更强规划：结合推理和工具，少想多做。

结语

AI Agent 是 AI 从「工具」到「伙伴」的进化。它用 LLM 的通用性，摆脱了 RL 的局限，虽然还不完美，但潜力巨大。

未来，LLM 可能不仅是 Agent 的「大脑」，还能模拟环境、造工具，甚至自己进化。

李宏毅：从零开始搞懂 AI Agent

引言：AI Agent 是什么？为什么它突然火了？