AI Agent 系统开发实战指南

2026-06-28 人工智能►AI Agent AI Agent, LLM, Python, 人工智能 0

AI Agent 系统开发实战指南

概述

2026 年被业界称为「Agent 元年」。AI Agent（自主代理）已从实验性概念演变为生产级基础设施——从代码生成代理、客服代理到多代理协作系统，Agent 正在重塑软件开发范式。本文从基础概念出发，系统讲解 Agent 系统的架构设计、工具集成、记忆管理、多代理协作等核心主题，并给出完整的实战代码示例。

前置要求

熟悉 Python 编程（TypeScript 亦可）
了解 LLM API 的基本调用方式（OpenAI/Claude 兼容协议）
了解异步编程基础概念

一、Agent 核心概念

1.1 什么是 AI Agent？

AI Agent 是一个能自主感知环境、做出决策并执行行动的智能系统。与传统 LLM 调用的区别：

维度	传统 LLM 调用	AI Agent
交互模式	一问一答	自主循环（感知→思考→行动→观察）
工具使用	无	可调用函数/API/Shell
记忆管理	无（上下文窗口）	短期记忆 + 长期记忆
目标驱动	被动响应	主动规划与执行
自主性	低	高（可独立完成多步骤任务）

1.2 Agent 的循环架构

┌─────────────────────────────────────┐
│          用户输入                     │
└──────────────┬──────────────────────┘
               ▼
┌─────────────────────────────────────┐
│  1. 感知（Perception）               │
│  解析输入、加载上下文和记忆           │
└──────────────┬──────────────────────┘
               ▼
┌─────────────────────────────────────┐
│  2. 思考（Thinking）                 │
│  LLM 推理：规划步骤、选择工具         │
└──────────────┬──────────────────────┘
               ▼
┌─────────────────────────────────────┐
│  3. 行动（Action）                   │
│  执行工具调用/代码/API 请求           │
└──────────────┬──────────────────────┘
               ▼
┌─────────────────────────────────────┐
│  4. 观察（Observation）              │
│  获取执行结果，更新记忆               │
└──────────────┬──────────────────────┘
               │
      ┌────────┴────────┐
      ▼                  ▼
   任务完成          需要继续
      │                  │
      ▼                  └──→ 回到步骤 2
   输出结果

二、构建第一个 Agent

2.1 环境准备

# 创建项目
mkdir my-agent && cd my-agent
python -m venv .venv
source .venv/bin/activate

# 安装依赖
pip install openai httpx pydantic

2.2 最小化 Agent 实现

# agent.py
import json
import httpx
from typing import Any

class SimpleAgent:
    """一个最小化的 AI Agent 实现"""

    def __init__(self, api_key: str, model: str = "claude-sonnet-4"):
        self.api_key = api_key
        self.model = model
        self.messages = []  # 短期记忆（对话历史）
        self.tools = {}     # 注册的工具

    def register_tool(self, name: str, fn: callable, description: str):
        """注册一个可调用的工具"""
        self.tools[name] = {"fn": fn, "description": description}

    def _build_tool_schema(self) -> list[dict]:
        """构建工具 schema（OpenAI 兼容格式）"""
        schemas = []
        for name, tool in self.tools.items():
            schemas.append({
                "type": "function",
                "function": {
                    "name": name,
                    "description": tool["description"],
                    "parameters": {"type": "object", "properties": {}}
                }
            })
        return schemas

    def _call_llm(self) -> dict:
        """调用 LLM API"""
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }
        payload = {
            "model": self.model,
            "messages": self.messages,
            "tools": self._build_tool_schema() if self.tools else None,
            "max_tokens": 4096,
        }
        resp = httpx.post(
            "https://api.anthropic.com/v1/messages",
            headers=headers,
            json=payload,
            timeout=60
        )
        return resp.json()

    def run(self, user_input: str, max_steps: int = 10) -> str:
        """运行 Agent，最多执行 max_steps 步"""
        self.messages.append({"role": "user", "content": user_input})

        for step in range(max_steps):
            print(f"\n[步骤 {step + 1}] 思考中...")

            response = self._call_llm()

            # 处理工具调用
            if "tool_calls" in (response.get("choices") or [{}])[0].get("message", {}):
                msg = response["choices"][0]["message"]
                self.messages.append(msg)

                for tool_call in msg["tool_calls"]:
                    tool_name = tool_call["function"]["name"]
                    if tool_name in self.tools:
                        print(f"  → 调用工具: {tool_name}")
                        result = self.tools[tool_name]["fn"]()
                        self.messages.append({
                            "role": "tool",
                            "tool_call_id": tool_call["id"],
                            "content": str(result)
                        })
            else:
                # 没有工具调用，返回最终回答
                final = response["choices"][0]["message"]["content"]
                self.messages.append({"role": "assistant", "content": final})
                return final

        return "达到最大步数限制，任务未完成"

# 使用示例
if __name__ == "__main__":
    import os

    agent = SimpleAgent(api_key=os.environ["ANTHROPIC_API_KEY"])

    # 注册一个工具
    def get_weather():
        return "长沙：26°C，多云"

    agent.register_tool("get_weather", get_weather, "获取指定城市的天气")

    result = agent.run("今天长沙天气怎么样？需要带伞吗？")
    print(f"\n最终回答:\n{result}")

2.3 使用 Agent SDK（推荐）

手动实现 Agent 循环是理解原理的好方法，但生产环境推荐使用成熟的 Agent SDK：

# 安装 Agent SDK
pip install openai-agents  # OpenAI Agents SDK
# 或
pip install langgraph      # LangGraph

使用 OpenAI Agents SDK：

from agents import Agent, Runner, function_tool
import asyncio

@function_tool
def get_weather(city: str) -> str:
    """获取指定城市的天气"""
    # 实际项目中调用天气 API
    return f"{city}：26°C，多云"

agent = Agent(
    name="天气助手",
    instructions="你是一个友好的天气助手，根据用户查询提供天气信息。",
    tools=[get_weather],
)

async def main():
    result = await Runner.run(agent, "今天长沙天气怎么样？")
    print(result.final_output)

asyncio.run(main())

三、工具集成（Tool Use）

工具是 Agent 与外部世界交互的桥梁。2026 年的 Agent 生态中，工具集成是最核心的能力。

3.1 工具类型

工具类型	示例	实现方式
函数调用	天气查询、计算器	Python 函数 + 装饰器
API 调用	GitHub、Slack、Jira	HTTP 请求封装
代码执行	Python REPL、Shell	沙箱环境
文件操作	读写文件、搜索	文件系统 API
数据库	SQL 查询、ORM	数据库连接
浏览器	网页抓取、表单填写	Playwright/Selenium
知识库	RAG 检索	向量数据库

3.2 工具注册模式

from typing import Annotated
from agents import function_tool

# 带参数的工具
@function_tool
def search_web(
    query: Annotated[str, "搜索关键词"],
    limit: Annotated[int, "返回结果数量"] = 5
) -> list[dict]:
    """搜索互联网获取最新信息"""
    import httpx
    resp = httpx.get("https://api.duckduckgo.com", params={"q": query})
    return resp.json().get("results", [])[:limit]

# 带验证的工具
@function_tool
def run_sql(
    query: Annotated[str, "SQL 查询语句（仅 SELECT）"]
) -> list[dict]:
    """执行 SQL 查询（只读）"""
    if not query.strip().upper().startswith("SELECT"):
        return {"error": "只允许 SELECT 查询"}
    # 执行查询...
    return [{"result": "ok"}]

# 组合工具
agent = Agent(
    name="全能助手",
    instructions="你可以搜索网页、执行查询、处理文件。",
    tools=[search_web, run_sql],
)

3.3 工具调用安全

import subprocess
import tempfile
import os

class SafeToolExecutor:
    """安全的工具执行沙箱"""

    def __init__(self):
        self.allowed_commands = {"ls", "cat", "head", "tail", "wc", "date", "pwd"}
        self.allowed_paths = {"/tmp", os.getcwd()}

    def run_command(self, command: str) -> str:
        """在沙箱中执行命令"""
        parts = command.strip().split()
        if not parts:
            return "错误：空命令"

        cmd = parts[0]
        if cmd not in self.allowed_commands:
            return f"错误：命令 '{cmd}' 不在白名单中"

        # 检查路径
        for part in parts[1:]:
            if part.startswith("/") and not any(
                part.startswith(p) for p in self.allowed_paths
            ):
                return f"错误：路径 '{part}' 不在允许范围内"

        try:
            result = subprocess.run(
                parts,
                capture_output=True,
                text=True,
                timeout=10,
            )
            return result.stdout or result.stderr
        except subprocess.TimeoutExpired:
            return "错误：命令执行超时"
        except Exception as e:
            return f"错误：{e}"

四、记忆管理

4.1 记忆层级

短期记忆（对话上下文）
    ↓ 摘要/压缩
工作记忆（当前会话的关键信息）
    ↓ 持久化
长期记忆（跨会话的知识）

4.2 实现记忆系统

import json
import sqlite3
from datetime import datetime
from typing import Optional

class MemoryStore:
    """基于 SQLite 的记忆存储"""

    def __init__(self, db_path: str = "agent_memory.db"):
        self.conn = sqlite3.connect(db_path)
        self.conn.execute("""
            CREATE TABLE IF NOT EXISTS memories (
                id INTEGER PRIMARY KEY AUTOINCREMENT,
                session_id TEXT,
                key TEXT,
                value TEXT,
                importance INTEGER DEFAULT 1,
                created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
            )
        """)
        self.conn.execute("""
            CREATE INDEX IF NOT EXISTS idx_memories_key
            ON memories(key)
        """)
        self.conn.commit()

    def save(self, session_id: str, key: str, value: str, importance: int = 1):
        """保存一条记忆"""
        self.conn.execute(
            "INSERT INTO memories (session_id, key, value, importance) VALUES (?, ?, ?, ?)",
            (session_id, key, value, importance)
        )
        self.conn.commit()

    def recall(self, key: str, limit: int = 5) -> list[dict]:
        """按关键词检索记忆"""
        cursor = self.conn.execute(
            "SELECT key, value, importance, created_at FROM memories WHERE key LIKE ? ORDER BY importance DESC, created_at DESC LIMIT ?",
            (f"%{key}%", limit)
        )
        return [dict(row) for row in cursor.fetchall()]

    def summarize_session(self, session_id: str) -> str:
        """汇总一个会话的所有记忆"""
        cursor = self.conn.execute(
            "SELECT key, value FROM memories WHERE session_id = ? ORDER BY importance DESC",
            (session_id,)
        )
        memories = cursor.fetchall()
        if not memories:
            return "无记忆"
        return "\n".join(f"- {k}: {v}" for k, v in memories)

    def forget(self, key: str):
        """删除记忆"""
        self.conn.execute("DELETE FROM memories WHERE key = ?", (key,))
        self.conn.commit()


class WorkingMemory:
    """工作记忆（当前会话）"""

    def __init__(self, max_tokens: int = 8000):
        self.context: list[dict] = []
        self.max_tokens = max_tokens

    def add(self, role: str, content: str):
        self.context.append({"role": role, "content": content})
        self._prune()

    def _prune(self):
        """超出限制时压缩"""
        total = sum(len(m["content"]) for m in self.context)
        if total > self.max_tokens:
            # 保留系统提示和最近的对话
            system_msgs = [m for m in self.context if m["role"] == "system"]
            recent = self.context[-10:]  # 保留最近 10 条
            self.context = system_msgs + [
                {"role": "system", "content": f"[已压缩 {len(self.context) - len(system_msgs) - len(recent)} 条历史消息]"}
            ] + recent

    def get_context(self) -> list[dict]:
        return self.context

4.3 记忆增强的 Agent

class MemoryEnhancedAgent:
    """带记忆的 Agent"""

    def __init__(self, api_key: str):
        self.api_key = api_key
        self.working = WorkingMemory()
        self.long_term = MemoryStore()
        self.session_id = datetime.now().strftime("%Y%m%d_%H%M%S")

    def run(self, user_input: str) -> str:
        # 1. 检索长期记忆
        relevant = self.long_term.recall(user_input[:20])
        if relevant:
            memory_context = "相关记忆：\n" + "\n".join(
                f"- {m['key']}: {m['value']}" for m in relevant
            )
            self.working.add("system", memory_context)

        # 2. 添加用户输入到工作记忆
        self.working.add("user", user_input)

        # 3. 调用 LLM（省略具体调用代码）
        response = self._call_llm(self.working.get_context())

        # 4. 提取重要信息存入长期记忆
        self._extract_and_save(user_input, response)

        return response

    def _extract_and_save(self, user_input: str, response: str):
        """提取关键信息存入长期记忆"""
        # 实际项目中可用 LLM 提取关键信息
        # 这里简化处理
        if "我的名字" in user_input or "我叫" in user_input:
            name = user_input.split("我叫")[-1].strip()[:20]
            self.long_term.save(self.session_id, "user_name", name, importance=5)

五、多代理协作（Multi-Agent）

5.1 协作模式

┌──────────────────────────────────────────┐
│              Orchestrator                 │
│         （编排器 Agent）                    │
│  分解任务 → 分配 → 汇总结果                │
└──────┬──────────┬──────────┬──────────────┘
       │          │          │
       ▼          ▼          ▼
┌──────────┐ ┌──────────┐ ┌──────────┐
│  Researcher │ │  Coder   │ │  Reviewer │
│  (研究员)   │ │  (编码)   │ │  (审查)    │
└──────────┘ └──────────┘ └──────────┘

5.2 多代理编排实现

import asyncio
from dataclasses import dataclass, field
from typing import Optional

@dataclass
class AgentTask:
    """代理任务"""
    id: str
    description: str
    agent_type: str
    context: dict = field(default_factory=dict)
    result: Optional[str] = None
    status: str = "pending"  # pending | running | completed | failed

class BaseWorker:
    """基础工作代理"""

    def __init__(self, name: str, system_prompt: str):
        self.name = name
        self.system_prompt = system_prompt

    async def execute(self, task: AgentTask) -> str:
        """执行任务（子类实现）"""
        raise NotImplementedError

class ResearcherAgent(BaseWorker):
    """研究员代理：搜索和分析信息"""

    async def execute(self, task: AgentTask) -> str:
        print(f"  🔍 {self.name} 正在研究: {task.description}")
        # 模拟研究过程
        await asyncio.sleep(1)
        return f"研究发现：关于「{task.description}」的关键信息包括..."

class CoderAgent(BaseWorker):
    """编码代理：编写代码"""

    async def execute(self, task: AgentTask) -> str:
        print(f"  💻 {self.name} 正在编码: {task.description}")
        await asyncio.sleep(1)
        return f"代码实现：已完成 {task.description} 的编码"

class ReviewerAgent(BaseWorker):
    """审查代理：代码审查和质量检查"""

    async def execute(self, task: AgentTask) -> str:
        print(f"  ✅ {self.name} 正在审查: {task.description}")
        await asyncio.sleep(0.5)
        return f"审查结果：代码质量良好，建议优化..."

class Orchestrator:
    """编排器：管理多代理协作"""

    def __init__(self):
        self.workers: dict[str, BaseWorker] = {}
        self.tasks: list[AgentTask] = []

    def register_worker(self, agent_type: str, worker: BaseWorker):
        self.workers[agent_type] = worker

    def add_task(self, task: AgentTask):
        self.tasks.append(task)

    async def run(self) -> list[AgentTask]:
        """并行执行所有任务"""
        print(f"\n🚀 开始执行 {len(self.tasks)} 个任务\n")

        async def execute_task(task: AgentTask):
            worker = self.workers.get(task.agent_type)
            if not worker:
                task.status = "failed"
                task.result = f"错误：未找到 {task.agent_type} 类型的代理"
                return task

            task.status = "running"
            try:
                task.result = await worker.execute(task)
                task.status = "completed"
            except Exception as e:
                task.status = "failed"
                task.result = f"错误：{e}"
            return task

        # 并行执行所有任务
        results = await asyncio.gather(
            *[execute_task(t) for t in self.tasks]
        )
        return results


# 使用示例
async def main():
    # 创建编排器
    orchestrator = Orchestrator()

    # 注册代理
    orchestrator.register_worker("researcher", ResearcherAgent("研究员-Alice"))
    orchestrator.register_worker("coder", CoderAgent("编码员-Bob"))
    orchestrator.register_worker("reviewer", ReviewerAgent("审查员-Charlie"))

    # 添加任务
    orchestrator.add_task(AgentTask(
        id="1", description="调研 Rust 在 WebAssembly 中的应用",
        agent_type="researcher"
    ))
    orchestrator.add_task(AgentTask(
        id="2", description="实现一个 Rust 函数调用 JS 的示例",
        agent_type="coder",
        context={"lang": "rust"}
    ))
    orchestrator.add_task(AgentTask(
        id="3", description="审查生成的 Rust 代码",
        agent_type="reviewer"
    ))

    # 执行
    results = await orchestrator.run()

    # 输出结果
    print("\n📋 执行结果：")
    for task in results:
        status_icon = "✅" if task.status == "completed" else "❌"
        print(f"  {status_icon} [{task.agent_type}] {task.description}")
        print(f"     → {task.result[:50]}...")

asyncio.run(main())

5.3 多代理通信模式

模式	说明	适用场景
编排器模式	中央调度器分配任务	任务可并行分解
流水线模式	代理 A → 代理 B → 代理 C	有明确处理流程
辩论模式	多个代理讨论达成共识	需要多角度分析
市场模式	代理自主竞标任务	复杂动态分配
图模式	DAG 依赖关系执行	复杂工作流

六、Agent 评估与监控

6.1 评估指标

from dataclasses import dataclass

@dataclass
class AgentMetrics:
    """Agent 运行指标"""
    total_steps: int = 0
    tool_calls: int = 0
    successful_tool_calls: int = 0
    failed_tool_calls: int = 0
    total_tokens: int = 0
    total_time_ms: float = 0
    completed: bool = False

    @property
    def success_rate(self) -> float:
        if self.tool_calls == 0:
            return 1.0
        return self.successful_tool_calls / self.tool_calls

    def summary(self) -> str:
        return (
            f"步骤数: {self.total_steps}\n"
            f"工具调用: {self.tool_calls} (成功率 {self.success_rate:.1%})\n"
            f"Token 消耗: {self.total_tokens}\n"
            f"耗时: {self.total_time_ms:.1f}ms\n"
            f"完成: {'✅' if self.completed else '❌'}"
        )

6.2 日志与追踪

import logging
import time
from functools import wraps

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger("agent")

def trace_agent_step(func):
    """Agent 步骤追踪装饰器"""
    @wraps(func)
    def wrapper(*args, **kwargs):
        start = time.time()
        logger.info(f"▶️ 开始执行: {func.__name__}")
        try:
            result = func(*args, **kwargs)
            elapsed = time.time() - start
            logger.info(f"✅ 完成: {func.__name__} ({elapsed:.2f}s)")
            return result
        except Exception as e:
            elapsed = time.time() - start
            logger.error(f"❌ 失败: {func.__name__} ({elapsed:.2f}s): {e}")
            raise
    return wrapper

七、生产部署最佳实践

7.1 架构建议

┌──────────┐     ┌──────────┐     ┌──────────┐
│  客户端   │────▶│  API 网关 │────▶│  Agent   │
└──────────┘     │  (负载均衡)│     │  服务    │
                 └──────────┘     └────┬─────┘
                                       │
                          ┌────────────┼────────────┐
                          ▼            ▼            ▼
                    ┌──────────┐ ┌──────────┐ ┌──────────┐
                    │ LLM API  │ │ 工具服务  │ │ 记忆存储  │
                    │ (多Provider)│ │ (微服务)  │ │ (Redis/DB)│
                    └──────────┘ └──────────┘ └──────────┘

7.2 关键配置

# config.py
from pydantic import BaseSettings

class AgentConfig(BaseSettings):
    """Agent 系统配置"""

    # LLM 配置
    llm_provider: str = "anthropic"  # anthropic | openai | volcengine
    llm_model: str = "claude-sonnet-4"
    llm_api_key: str = ""
    llm_base_url: str = ""

    # Agent 配置
    max_steps: int = 25
    max_tool_calls_per_step: int = 5
    working_memory_limit: int = 16000

    # 并发配置
    max_concurrent_agents: int = 10
    request_timeout_seconds: int = 120

    # 记忆配置
    memory_db_url: str = "sqlite:///agent_memory.db"
    memory_retrieval_limit: int = 10

    # 安全配置
    allowed_tools: list[str] = ["search", "read_file", "run_code"]
    sandbox_enabled: bool = True
    rate_limit_per_minute: int = 60

    class Config:
        env_prefix = "AGENT_"

7.3 错误处理与重试

import asyncio
from tenacity import retry, stop_after_attempt, wait_exponential

class AgentService:
    """生产级 Agent 服务"""

    @retry(
        stop=stop_after_attempt(3),
        wait=wait_exponential(multiplier=1, min=2, max=10),
    )
    async def call_llm_with_retry(self, messages: list[dict]) -> dict:
        """带重试的 LLM 调用"""
        async with httpx.AsyncClient(timeout=60) as client:
            resp = await client.post(
                f"{self.config.llm_base_url}/v1/messages",
                json={
                    "model": self.config.llm_model,
                    "messages": messages,
                    "max_tokens": 4096,
                },
                headers={"Authorization": f"Bearer {self.config.llm_api_key}"},
            )
            resp.raise_for_status()
            return resp.json()

    async def run_with_fallback(self, user_input: str) -> str:
        """带降级策略的 Agent 运行"""
        try:
            return await self._run_agent(user_input)
        except Exception as e:
            logger.error(f"Agent 运行失败: {e}")
            # 降级：直接调用 LLM（无工具）
            return await self._direct_llm_call(user_input)

八、常见问题

Q: Agent 和传统 RAG 有什么区别？

A: RAG（检索增强生成）是被动的——你问什么，它检索相关内容后回答。Agent 是主动的——它能自主决定调用什么工具、按什么顺序执行、是否需要更多信息。Agent 可以做 RAG 能做的事，但反过来不行。

Q: Agent 的幻觉问题怎么解决？

A: 多层防护：1）工具调用结果优先于 LLM 生成内容；2）关键决策要求 LLM 提供推理过程（Chain-of-Thought）；3）设置验证步骤，让 Agent 自我检查；4）使用结构化输出（JSON Schema）约束格式。

Q: 单 Agent 和多 Agent 怎么选？

A: 简单任务用单 Agent 就够了。多 Agent 适合：需要多领域专业知识（研究员+编码员+审查员）、任务可并行分解、需要多角度验证。多 Agent 的通信开销和复杂度明显更高，不要为了用而用。

Q: Agent 系统的成本怎么控制？

A: 主要成本在 LLM API 调用。优化策略：1）缓存重复的工具调用结果；2）使用更便宜的模型做简单决策（如工具选择），昂贵模型做复杂推理；3）限制最大步数；4）使用流式输出减少等待时间；5）对长对话进行摘要压缩。

Q: 2026 年推荐的 Agent 框架有哪些？

A: 主流选择：OpenAI Agents SDK（最易用）、LangGraph（最灵活）、CrewAI（多代理友好）、AutoGen（微软出品，企业级）。如果从零开始，推荐 OpenAI Agents SDK 入门，需要复杂工作流时切换到 LangGraph。

Q: Agent 的安全性如何保障？

A: 核心原则：最小权限。1）工具白名单而非黑名单；2）所有文件操作限制在沙箱目录；3）代码执行使用隔离容器；4）敏感操作需要人工确认；5）审计日志记录所有 Agent 行为；6）设置速率限制和预算上限。

九、总结

能力层级	核心组件	生产就绪度
L1：基础对话	LLM API 调用	✅ 成熟
L2：工具使用	函数调用 + 工具注册	✅ 成熟
L3：记忆管理	短期/长期记忆	✅ 成熟
L4：自主规划	任务分解 + 多步执行	🟡 发展中
L5：多代理协作	编排器 + 工作代理	🟡 发展中
L6：自我进化	经验学习 + 技能更新	🔴 前沿

一句话总结： 2026 年是 Agent 从「能跑」到「好用」的关键转折年。掌握工具集成、记忆管理和多代理编排三大核心能力，就能构建真正有用的 Agent 系统。

本文链接： https://www.geniux.top/article/f439993837db/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

CaoZHProgrammer

学习使我快乐。