李宏毅:从零开始搞懂 AI Agent

     分类 [产品经理]
2025/4/17 11:23:07 浏览量  526 喜欢  65

李宏毅:从零开始搞懂 AI Agent

哈喽大家好,我是薛老板。这篇文章是对李宏毅老师2025年在油管上最新视频的解读,主题是 AI Agent。
正好最近《AIGC产品经理实战训练营》的小伙伴面试,让我推荐关于Agent通俗易懂的资料,思来想去李宏毅老师的视频讲解的案例很适合,如有侵权可联系删除
我会从Agent定义讲起,一步步剖析 AI Agent 的本质、工作原理、关键能力、优缺点、未来展望等维度讲解。

引言:AI Agent 是什么?为什么它突然火了?

最近科技圈的热门话题里,"AI Agent"绝对是个高频词汇。

其实这个概念早在2023年就掀起过一波热潮,当时AutoGPT和MetaGPT的横空出世让人们对它充满期待。

如今,在大模型技术持续升级的推动下,2025年AI Agent重新成为行业关注的焦点。

你可以把它理解为一个拥有自主决策能力的智能管家。比如你只需要交代一句:"帮我订一张2000元以内的上海机票",它就能自动完成查询航班、比较价格、填写信息等一系列操作,最终帮你搞定机票。

这正是AI Agent的精髓所在——

它不会被动等待指令,而是主动寻找解决方案。

这与我们熟悉的ChatGPT、Deepseek等对话式AI有所不同。后者更像是一个"有问必答"的聊天伙伴,而AI Agent则是一位能够"主动出击"的智能执行者。

一、AI Agent 的本质——从「听话」到「主动」

1.1 AI Agent 和普通 AI 的区别

要理解AI Agent和普通AI的区别,我们可以从它们的工作方式来看。

举个例子,如果你问ChatGPT:"AI Agent用中文怎么说?" 它会直接回答:"AI Agent的中文是'人工智能代理'。" 这就是传统AI的工作模式——你输入指令,它给出结果,任务结束。

但AI Agent完全不同。如果你对它说:"帮我研究AI Agent的定义",它不会简单地回复一句话,而是会主动搜索资料、对比不同来源、分析关键信息,最终给你一份完整的分析报告。

用更形象的比喻来说:

  • 普通AI:像一台自动贩卖机,你按下按钮,它就给你对应的商品。

  • AI Agent:像一位私人助理,你告诉它需求,它会自己规划步骤、执行任务,直到达成目标。

就像李宏毅教授所说,传统AI是"指令驱动",而AI Agent是"目标驱动"——你只需要指明方向,剩下的交给它来完成。

李宏毅:从零开始搞懂 AI Agent
李宏毅:从零开始搞懂 AI Agent
以一个「研究任务」为例,展示AI Agent如何工作:
李宏毅:从零开始搞懂 AI Agent

1.2 AI Agent 的定义和工作循环

让我们深入解析AI Agent的工作原理。视频中展示的核心框架可以用一个闭环流程来描述:
李宏毅:从零开始搞懂 AI Agent
  1. 目标设定 - 接收人类指令(如"赢得围棋比赛")

  2. 环境感知 - 获取当前状态(如扫描棋盘布局)

  3. 决策执行 - 采取具体行动(如在5-7位置落子)

  4. 反馈更新 - 观察行动结果(如对手的应对)

  5. 持续迭代 - 循环执行直至目标达成

以AlphaGo为例:
• 终极目标:取得胜利
• 实时输入:解析棋盘局势
• 战术输出:执行最优落子
• 动态调整:应对对手棋路

这种"感知-决策-行动-反馈"的运作机制,本质上模拟了人类解决问题的思维过程:分析现状、制定策略、实施方案、评估效果并持续优化。

李宏毅:从零开始搞懂 AI Agent
这个工作循环体现了 AI Agent 的自主性反应式架构——像人类一样通过试错逼近目标,而非单纯执行预设指令。

1.3 为啥 AI Agent 跟强化学习(RL)有关?

熟悉机器学习的朋友可能会发现,这个运作机制似曾相识。

没错,它和强化学习(Reinforcement Learning)的核心逻辑高度吻合。强化学习的关键在于让AI通过不断尝试来优化"奖励值"——以AlphaGo为例,获胜时获得+1奖励,落败时得到-1惩罚,经过海量对局训练后,它就能掌握制胜策略。

但传统AI Agent存在明显局限:它们通常是为单一任务专门训练的。比如专攻围棋的AlphaGo,如果要改下国际象棋,就得从零开始重新训练一个新模型,这种"一事一练"的模式显然不够灵活。

这正是当前AI Agent再度走红的关键突破——

现在我们有了更聪明的解决方案:直接让大语言模型(LLM)担任Agent的角色。这种新型Agent无需针对每个新任务重新训练,一个模型就能应对多种需求,真正实现了"一专多能"。

二、AI Agent 的「新灵魂」——大型语言模型(LLM)

2.1 LLM 如何变身 AI Agent?

传统基于强化学习的AI Agent存在明显的功能限制:每个模型只能执行特定任务。但随着大语言模型(LLM)的出现,游戏规则彻底改变了。

LLM最突出的优势在于其
多任务处理能力
——不仅能进行文本理解、智能问答、代码生成,还能实现跨模态的图文交互。

那么,能否直接让LLM担任AI Agent的角色呢?

实践证明完全可行!基于LLM的AI Agent是这样运作的:

  1. 文字化目标输入:
    例如"请帮我赢得围棋比赛"

  2. 环境信息文本/图像化:
    棋盘状态可转为文字描述("黑子位于A1,白子位于B2")或直接输入棋盘图像

  3. 文字指令输出:
    LLM生成"建议在C3位置落子"的文本,由执行系统转化为实际操作

  4. 动态迭代执行:
    环境更新后,LLM持续观察并输出新的行动方案与强化学习的本质区别在于:LLM无需专门训练,仅凭其预训练获得的世界知识就能"推理"出合理行动方案。

  5. 这种"开箱即用"的特性,让AI Agent的开发效率获得了质的飞跃。

李宏毅:从零开始搞懂 AI Agent

2.2 LLM 做 Agent 的优缺点

优点

灵活性:不像 AlphaGo 只能下围棋,LLM 能处理各种任务,只要你能用文字描述目标。
无需定义 Reward:RL 得手工设计奖励函数(比如「赢棋 +1」),但这很难调。LLM 直接读懂目标和反馈,比如给它个错误日志,它自己就能改代码,不用你说「错一次 -1」。
无限可能:LLM 能输出任何文字,行动空间几乎无限制,而 AlphaGo 只能在 19×19 的棋盘里挑一个点。

缺点

不靠谱:LLM 本质是「文字接龙机」,它可能瞎猜一步,而不是深思熟虑。
依赖描述:环境得转成文字或图片,如果描述不清楚,它就懵了。
前一段有一个新闻,有人让 ChatGPT 和 DeepSeek 下象棋,结果它们把「兵」当「马」跳,还凭空变出棋子,最后 DeepSeek 吃了自己一子宣布胜利,ChatGPT 还认输了……这说明,LLM 做 Agent 还得磨练。

三、AI Agent 的三大关键能力

视频里把 AI Agent 的能力拆成三块:根据经验调整行为使用工具做计划。这三点决定了它能不能从「听话工具」进化成「聪明助手」。

3.1 根据经验调整行为

这个能力为什么重要?
人类做事靠经验,AI Agent 也一样。比如你写代码报错,编译器告诉你「缺个分号」,下次你就记得加分号。
AI Agent 得有类似能力,看到反馈后调整下一步。
LLM 怎么做到?
LLM 不用调参数,直接把反馈塞进输入,它就变聪明了。比如:
输入:「写个加法函数。」
输出:「def add(a, b): return a + b」
反馈:「有错,b 没定义类型。」
新输入:「写个加法函数,反馈说 b 没定义类型。」
新输出:「def add(a: int, b: int) -> int: return a + b」
这靠的是 LLM 的「上下文学习」能力,不用训练,输入变了,输出就变。
挑战:记忆爆炸
如果每次行动都把历史全塞给 LLM,步数一多(比如 1 万步),输入就太长,算力撑不住。怎么办?视频中提了三个模块:
Write(写入):决定啥值得记。比如「桌子在那儿」不重要,「对手下了关键一步」才记。
Read(读取):从记忆里挑相关经验,像 RAG(检索增强生成)技术,从海量数据里找有用的。
Reflection(反思):总结经验,比如「对手老爱走中间,我得防着点」。
实验发现,正面反馈(「这步对了」)比负面反馈(「这步错了」)更有效,因为 LLM 更擅长照着「好例子」学。
李宏毅:从零开始搞懂 AI Agent

3.2 使用工具

为什么需要工具?
LLM 再强,也有短板。比如它不会直接查天气,得靠外部工具。工具就像 AI Agent 的「外挂」,让它能干更多事。
怎么用?
一个通用方法:
告诉它工具咋用:比如用 Temperature(地点, 时间) 查温度
输入问题今天北京多热?
输出指令[Tool] Temperature(北京, 现在) [Tool]
执行并反馈[Output] 28°C [Output]
最终回答:北京现在 28°C。
常用工具包括:
搜索引擎:查资料(RAG)。
代码执行器:写程序并运行。
其他 AI:比如让语音 AI 帮它听音频。
  • 李宏毅:从零开始搞懂 AI Agent
挑战:工具多了咋办?
工具一多(比如上千个),LLM 不可能全记住。解决办法是用「工具选择模块」,像 RAG 一样,从工具库里挑合适的。更有趣的是,LLM 还能自己写代码造工具,存起来复用。
小心工具出错
工具可能给错信息,比如搜索引擎搜到恶搞贴说「披萨起司用胶水粘」。LLM 有一定判断力(比如「1 万度太离谱」),但有时也会被忽悠,得教它别太信工具。

3.3 做计划

什么是计划?
计划就是先想好步骤再行动。比如刷牙:找牙刷 → 挤牙膏 → 刷 → 漱口。AI Agent 也得会规划,不然每步都随机试,太笨了。
LLM 能规划吗?
能,但不完美。给它说「做百万订阅 YouTuber」,它能列个计划:选主题 → 优化标题 → 做直播……听起来不错,但细节常出错。比如安排旅行,它可能忘了预算限制,或者行程撞车。
怎么提升?
有几个思路:
试错法(Tree Search):每步都试试,挑最好的。但算力成本高,得剪掉没希望的路。
脑内模拟(World Model):让 LLM 自己猜下一步会咋样,像做梦一样规划。比如网页买东西,它先想象「点这个会跳到哪」。
用工具帮忙:复杂限制(像预算)交给专门的求解器,LLM 只管写代码调用。
李宏毅:从零开始搞懂 AI Agent

四、未来展望

4.1 AI Agent能干啥?

游戏:AI NPC自己聊天、办派对,甚至建社区。
用电脑:订 Pizza、买票,像人类一样操作屏幕。
科研:提研究提案、做实验。
训练 AI:写代码跑模型,调参数,比 baseline。

4.2 短板在哪?

不稳定:下棋能胡来,旅行计划超预算。
依赖环境描述:描述不清就抓瞎。
想太多或太少:要么卡在脑内模拟,要么直接放弃。

4.3 AI Agent 离「全能助手」还有多远?

实时互动:像语音对话,得随时调整,不能一问一答。
更好记忆:挑重要经验,别记鸡毛蒜皮。
更强规划:结合推理和工具,少想多做。

结语

AI Agent 是 AI 从「工具」到「伙伴」的进化。它用 LLM 的通用性,摆脱了 RL 的局限,虽然还不完美,但潜力巨大。
未来,LLM 可能不仅是 Agent 的「大脑」,还能模拟环境、造工具,甚至自己进化。

 

标签

微信扫一扫,分享到朋友圈

微信公众号

相关推荐