AI Agent Fundamentals - From LLM to Multi-Agent Systems

1. 什么是 AI Agent？

简单定义： AI Agent（人工智能代理）是一种能够感知环境、进行决策和执行动作的智能实体。

具有自主性、反应性、积极性和社交能力特征的智能实体
AI Agent 被设计为具有独立思考和行动能力的AI程序
只需要提供一个目标，它就会根据环境的反应和独白的形式生成一个任务序列开始工作

核心公式： Agent = “大模型 + 插件 + 执行流程 / 思维链”

分别对应：

控制端 (Brain / 大脑)
感知端 (Perception)
执行端 (Action)

1.1 背景介绍

AI Agent被视为人工实体，能够使用传感器感知周围环境，做出决策，然后使用执行器采取行动。

与传统方法的区别：

vs 大模型： 大模型基于prompt交互，而AI Agent仅需目标就能独立思考并行动
vs RPA： RPA只能按预设流程工作，而AI Agent可以通过环境交互感知信息并做出对应思考和行动

2. 技术演进路径

2.1 Prompt工程

把大模型当成编程语言，通过描述角色技能、任务关键词、任务目标及背景来调用大模型。

玩法：

角色扮演
零样本提示
少样本提示

2.2 Prompt外挂

通过引入额外工具或数据源增强模型能力：

向量数据库： 快速检索相关信息
知识图谱： 结构化语义知识库
API调用： 访问外部数据和服务
外部数据源： 直接访问数据库、文件系统等

2.3 思维链（Chain of Thought, CoT）

要求模型展示思考过程，而非仅给出答案：

具体说明： 要求模型详细地、一步步地思考
示例说明： 通过给定问题和答案的同时，提供思考过程

2.4 思维树（Tree of Thought, ToT）

允许模型探索不同的推理路径，并选择最佳路径生成最终答案。适合需要多层次、多步骤推理的问题。

2.5 思维图（Graph of Thought, GoT）

将LLM生成的信息建模为任意图，信息单位是顶点，边对应依赖关系。能够将任意LLM思维组合成协同结果。

2.6 反馈机制 - ReACT

让大模型先思考，再行动，然后根据行动结果进行观察，再思考，形成循环。

2.7 AutoGPT

创建初始计划，进入主循环。系统让模型判断当前计划下该进行何种行动，执行后将结果写入下一次循环。

2.8 Multi-Agent

多智能体模式，每个角色都是独立的智能体，能够涌现出群体智能现象。

3. 为什么LLM能够作为Agent的大脑？

3.1 自主性（Autonomy）

在没有详细步骤指示下执行各种任务
根据环境输入动态调整输出
展示创造力，提出新颖想法和解决方案

3.2 反应性（Reactivity）

对环境变化做出快速反应
通过多模态融合扩展感知空间
遵循”先思考后行动”的原则

3.3 主动性（Pro-activeness）

积极主动采取以目标为导向的行动
具有强大的概括推理和规划能力
能够进行目标重拟、任务分解和计划调整

3.4 社会能力（Social Ability）

强大的自然语言交互能力
可解释的方式与其他模型或人类交互
通过协作和竞争等社会行为提高任务绩效

4. Agent的构建架构

4.1 大脑模块（Brain）

核心功能：

自然语言交互： 高质量文本生成和言外之意理解
多轮对话： 理解对话历史、决定行动、生成回应
知识存储： 常识知识和专业技能知识
记忆机制： 短期记忆（上下文学习）和长期记忆（外部向量存储）
推理规划： 思维链推理和计划制定/反思
迁移泛化： 未知任务泛化、情景学习、持续学习

4.2 感知端（Perception）

多模态感知能力：

文本输入： 基础的文本理解能力
视觉输入： 图像描述生成或视觉编码表示
听觉输入： 通过工具调用或频谱图处理
其他输入： 触觉、嗅觉、环境感知（温度、湿度等）

4.3 行动端（Action）

多样化行动能力：

文本输出： 基础的文本生成能力
工具使用： 搜索引擎、计算器、多模态生成工具
具身行动：
- Observation：环境感知和定位
- Manipulation：抓取、推动等操作
- Navigation：位置变换和状态更新

5. 应用场景分类

5.1 单代理场景

三个层次：

任务导向： 处理日常基本任务，模拟网络环境与生活场景
创新导向： 在前沿科学领域展现自主探究潜力
生命周期导向： 在开放世界中持续探索、学习和生存

5.2 多代理场景

两种交互形式：

合作型互动：
- 无序合作：自由表达观点
- 有序合作：遵循规则的流水线合作
对抗型互动： 通过竞争、谈判、辩论提升系统质量

5.3 人机交互场景

两种模式：

Instructor-Executor模式： 人类指导，代理执行
Equal Partnership模式： 平等身份参与任务执行

6. 通用智能基本原理

6.1 认知飞轮

传统认知模型：感知 → 认知 → 决策 → 行动

6.2 生物智能进化

从简单条件反射到主动预测，构建世界模型进行推理分析：

工作记忆的发展
语言处理能力的诞生
符号能力对人类智能的重要作用

7. 重要参考资源

核心论文与资源

大语言模型基础

从Llama-1到Llama-3

框架与平台

Langchain agent框架
Minedojo: Open-ended Objectives, Massively Multitask, World-wide knowledge

本文档整理了AI Agent从基础概念到实际应用的完整知识体系，为多智能体系统研究提供理论基础。

Last updated: January 2025