AI Agent Fundamentals - From LLM to Multi-Agent Systems
1. 什么是 AI Agent?
简单定义: AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。
- 具有自主性、反应性、积极性和社交能力特征的智能实体
- AI Agent 被设计为具有独立思考和行动能力的AI程序
- 只需要提供一个目标,它就会根据环境的反应和独白的形式生成一个任务序列开始工作
核心公式: Agent = “大模型 + 插件 + 执行流程 / 思维链”
分别对应:
- 控制端 (Brain / 大脑)
- 感知端 (Perception)
- 执行端 (Action)
1.1 背景介绍
AI Agent被视为人工实体,能够使用传感器感知周围环境,做出决策,然后使用执行器采取行动。
与传统方法的区别:
- vs 大模型: 大模型基于prompt交互,而AI Agent仅需目标就能独立思考并行动
- vs RPA: RPA只能按预设流程工作,而AI Agent可以通过环境交互感知信息并做出对应思考和行动
2. 技术演进路径
2.1 Prompt工程
把大模型当成编程语言,通过描述角色技能、任务关键词、任务目标及背景来调用大模型。
玩法:
- 角色扮演
- 零样本提示
- 少样本提示
2.2 Prompt外挂
通过引入额外工具或数据源增强模型能力:
- 向量数据库: 快速检索相关信息
- 知识图谱: 结构化语义知识库
- API调用: 访问外部数据和服务
- 外部数据源: 直接访问数据库、文件系统等
2.3 思维链(Chain of Thought, CoT)
要求模型展示思考过程,而非仅给出答案:
- 具体说明: 要求模型详细地、一步步地思考
- 示例说明: 通过给定问题和答案的同时,提供思考过程
2.4 思维树(Tree of Thought, ToT)
允许模型探索不同的推理路径,并选择最佳路径生成最终答案。适合需要多层次、多步骤推理的问题。
2.5 思维图(Graph of Thought, GoT)
将LLM生成的信息建模为任意图,信息单位是顶点,边对应依赖关系。能够将任意LLM思维组合成协同结果。
2.6 反馈机制 - ReACT
让大模型先思考,再行动,然后根据行动结果进行观察,再思考,形成循环。
2.7 AutoGPT
创建初始计划,进入主循环。系统让模型判断当前计划下该进行何种行动,执行后将结果写入下一次循环。
2.8 Multi-Agent
多智能体模式,每个角色都是独立的智能体,能够涌现出群体智能现象。
3. 为什么LLM能够作为Agent的大脑?
3.1 自主性(Autonomy)
- 在没有详细步骤指示下执行各种任务
- 根据环境输入动态调整输出
- 展示创造力,提出新颖想法和解决方案
3.2 反应性(Reactivity)
- 对环境变化做出快速反应
- 通过多模态融合扩展感知空间
- 遵循”先思考后行动”的原则
3.3 主动性(Pro-activeness)
- 积极主动采取以目标为导向的行动
- 具有强大的概括推理和规划能力
- 能够进行目标重拟、任务分解和计划调整
3.4 社会能力(Social Ability)
- 强大的自然语言交互能力
- 可解释的方式与其他模型或人类交互
- 通过协作和竞争等社会行为提高任务绩效
4. Agent的构建架构
4.1 大脑模块(Brain)
核心功能:
- 自然语言交互: 高质量文本生成和言外之意理解
- 多轮对话: 理解对话历史、决定行动、生成回应
- 知识存储: 常识知识和专业技能知识
- 记忆机制: 短期记忆(上下文学习)和长期记忆(外部向量存储)
- 推理规划: 思维链推理和计划制定/反思
- 迁移泛化: 未知任务泛化、情景学习、持续学习
4.2 感知端(Perception)
多模态感知能力:
- 文本输入: 基础的文本理解能力
- 视觉输入: 图像描述生成或视觉编码表示
- 听觉输入: 通过工具调用或频谱图处理
- 其他输入: 触觉、嗅觉、环境感知(温度、湿度等)
4.3 行动端(Action)
多样化行动能力:
- 文本输出: 基础的文本生成能力
- 工具使用: 搜索引擎、计算器、多模态生成工具
- 具身行动:
- Observation:环境感知和定位
- Manipulation:抓取、推动等操作
- Navigation:位置变换和状态更新
5. 应用场景分类
5.1 单代理场景
三个层次:
- 任务导向: 处理日常基本任务,模拟网络环境与生活场景
- 创新导向: 在前沿科学领域展现自主探究潜力
- 生命周期导向: 在开放世界中持续探索、学习和生存
5.2 多代理场景
两种交互形式:
- 合作型互动:
- 无序合作:自由表达观点
- 有序合作:遵循规则的流水线合作
- 对抗型互动: 通过竞争、谈判、辩论提升系统质量
5.3 人机交互场景
两种模式:
- Instructor-Executor模式: 人类指导,代理执行
- Equal Partnership模式: 平等身份参与任务执行
6. 通用智能基本原理
6.1 认知飞轮
传统认知模型:感知 → 认知 → 决策 → 行动
6.2 生物智能进化
从简单条件反射到主动预测,构建世界模型进行推理分析:
- 工作记忆的发展
- 语言处理能力的诞生
- 符号能力对人类智能的重要作用
7. 重要参考资源
核心论文与资源
大语言模型基础
- 从Llama-1到Llama-3
框架与平台
- Langchain agent框架
- Minedojo: Open-ended Objectives, Massively Multitask, World-wide knowledge
本文档整理了AI Agent从基础概念到实际应用的完整知识体系,为多智能体系统研究提供理论基础。
Last updated: January 2025