1. 什么是 AI Agent?

简单定义: AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。

  • 具有自主性、反应性、积极性和社交能力特征的智能实体
  • AI Agent 被设计为具有独立思考和行动能力的AI程序
  • 只需要提供一个目标,它就会根据环境的反应和独白的形式生成一个任务序列开始工作

核心公式: Agent = “大模型 + 插件 + 执行流程 / 思维链”

分别对应:

  1. 控制端 (Brain / 大脑)
  2. 感知端 (Perception)
  3. 执行端 (Action)

1.1 背景介绍

AI Agent被视为人工实体,能够使用传感器感知周围环境,做出决策,然后使用执行器采取行动。

与传统方法的区别:

  • vs 大模型: 大模型基于prompt交互,而AI Agent仅需目标就能独立思考并行动
  • vs RPA: RPA只能按预设流程工作,而AI Agent可以通过环境交互感知信息并做出对应思考和行动

2. 技术演进路径

2.1 Prompt工程

把大模型当成编程语言,通过描述角色技能、任务关键词、任务目标及背景来调用大模型。

玩法:

  • 角色扮演
  • 零样本提示
  • 少样本提示

2.2 Prompt外挂

通过引入额外工具或数据源增强模型能力:

  • 向量数据库: 快速检索相关信息
  • 知识图谱: 结构化语义知识库
  • API调用: 访问外部数据和服务
  • 外部数据源: 直接访问数据库、文件系统等

2.3 思维链(Chain of Thought, CoT)

要求模型展示思考过程,而非仅给出答案:

  • 具体说明: 要求模型详细地、一步步地思考
  • 示例说明: 通过给定问题和答案的同时,提供思考过程

2.4 思维树(Tree of Thought, ToT)

允许模型探索不同的推理路径,并选择最佳路径生成最终答案。适合需要多层次、多步骤推理的问题。

2.5 思维图(Graph of Thought, GoT)

将LLM生成的信息建模为任意图,信息单位是顶点,边对应依赖关系。能够将任意LLM思维组合成协同结果。

2.6 反馈机制 - ReACT

让大模型先思考,再行动,然后根据行动结果进行观察,再思考,形成循环。

2.7 AutoGPT

创建初始计划,进入主循环。系统让模型判断当前计划下该进行何种行动,执行后将结果写入下一次循环。

2.8 Multi-Agent

多智能体模式,每个角色都是独立的智能体,能够涌现出群体智能现象。

3. 为什么LLM能够作为Agent的大脑?

3.1 自主性(Autonomy)

  • 在没有详细步骤指示下执行各种任务
  • 根据环境输入动态调整输出
  • 展示创造力,提出新颖想法和解决方案

3.2 反应性(Reactivity)

  • 对环境变化做出快速反应
  • 通过多模态融合扩展感知空间
  • 遵循”先思考后行动”的原则

3.3 主动性(Pro-activeness)

  • 积极主动采取以目标为导向的行动
  • 具有强大的概括推理和规划能力
  • 能够进行目标重拟、任务分解和计划调整

3.4 社会能力(Social Ability)

  • 强大的自然语言交互能力
  • 可解释的方式与其他模型或人类交互
  • 通过协作和竞争等社会行为提高任务绩效

4. Agent的构建架构

4.1 大脑模块(Brain)

核心功能:

  • 自然语言交互: 高质量文本生成和言外之意理解
  • 多轮对话: 理解对话历史、决定行动、生成回应
  • 知识存储: 常识知识和专业技能知识
  • 记忆机制: 短期记忆(上下文学习)和长期记忆(外部向量存储)
  • 推理规划: 思维链推理和计划制定/反思
  • 迁移泛化: 未知任务泛化、情景学习、持续学习

4.2 感知端(Perception)

多模态感知能力:

  • 文本输入: 基础的文本理解能力
  • 视觉输入: 图像描述生成或视觉编码表示
  • 听觉输入: 通过工具调用或频谱图处理
  • 其他输入: 触觉、嗅觉、环境感知(温度、湿度等)

4.3 行动端(Action)

多样化行动能力:

  • 文本输出: 基础的文本生成能力
  • 工具使用: 搜索引擎、计算器、多模态生成工具
  • 具身行动:
    • Observation:环境感知和定位
    • Manipulation:抓取、推动等操作
    • Navigation:位置变换和状态更新

5. 应用场景分类

5.1 单代理场景

三个层次:

  • 任务导向: 处理日常基本任务,模拟网络环境与生活场景
  • 创新导向: 在前沿科学领域展现自主探究潜力
  • 生命周期导向: 在开放世界中持续探索、学习和生存

5.2 多代理场景

两种交互形式:

  • 合作型互动:
    • 无序合作:自由表达观点
    • 有序合作:遵循规则的流水线合作
  • 对抗型互动: 通过竞争、谈判、辩论提升系统质量

5.3 人机交互场景

两种模式:

  • Instructor-Executor模式: 人类指导,代理执行
  • Equal Partnership模式: 平等身份参与任务执行

6. 通用智能基本原理

6.1 认知飞轮

传统认知模型:感知 → 认知 → 决策 → 行动

6.2 生物智能进化

从简单条件反射到主动预测,构建世界模型进行推理分析:

  • 工作记忆的发展
  • 语言处理能力的诞生
  • 符号能力对人类智能的重要作用

7. 重要参考资源

核心论文与资源

大语言模型基础

  • 从Llama-1到Llama-3

框架与平台

  • Langchain agent框架
  • Minedojo: Open-ended Objectives, Massively Multitask, World-wide knowledge

本文档整理了AI Agent从基础概念到实际应用的完整知识体系,为多智能体系统研究提供理论基础。

Last updated: January 2025