从感知到行动：AI智能体的构建与评估

随着大语言模型发展，智能体不再只是算法的执行器，而是具备目标感、推理力和进化潜能的“数字生命体”。它们能理解语言、感知环境、规划行动，甚至在复杂系统中自主协作、持续演化。这不仅是AI的一次跃迁，更可能是人类与智能系统共生时代的开端。本文将剖析LLM智能体的底层架构、协作机制与演化逻辑，提出其评估方法，以及未来的发展方向，以期待更多行业专业人员参与到智能体建设中来。

一、引言

AI智能体在处理复杂动态任务中展现出重要价值，广泛应用于自动化任务执行、用户界面交互、智能导航与辅助等领域。随着大语言模型（LLMs）和多模态基础模型的发展，智能体在理解自然语言、感知视觉信息、适应环境变化方面的能力得到显著增强，这为AI智能体在现实场景下的推广应用提供了坚实基础。

传统智能体多依赖规则系统，适变能力有限。而今，借助多模态模型，AI智能体不仅能接收文本、图像等多种输入，还能做出更加复杂、灵活的响应。这种变革也对智能体的构建与评估提出了更高要求。

图1 一种多智能体的垂直执行架构

二、AI智能体的核心组成

AI智能体包括四大核心模块：感知、规划、执行与记忆，这些模块协同作用，使智能体能在动态环境中完成任务。

图2 AI智能体核心构成及生态系统

1. 感知（Perception）

智能体通过感知模块理解其所处环境，主要包括两类方式：

视觉感知（Vision-only）：通过截屏图像输入识别界面元素，如按钮、图标、文本等。为提高跨平台通用性，许多研究聚焦于屏幕图像的处理与理解，避开结构化数据依赖。

场景感知（Scene-aware）：若能获取场景行为的结构信息（如DOM树、API调用或行为树），则可大幅提升感知准确度与执行效率。结合动态状态数据与API功能，提升智能体对真实环境的适应能力。

2. 规划（Planning）

规划模块决定了智能体如何制定行动策略。分为：

静态规划：基于预定义任务分解，但灵活性不足；

动态规划：智能体根据反馈实时调整计划，适合处理复杂多变任务。近年来，随着提示词工程的发展，智能体可整合外部工具进行推理与规划，提升泛化与效率。

3. 行动（Action）

AI智能体的执行动作包括三类：

屏幕交互：模拟人类操作，如点击、滑动、输入；

API调用：调用底层功能以实现高效自动化；

多智能体协作：多个智能体之间的信息与任务共享，增强适应能力和复杂任务处理能力。

4. 记忆（Memory）

智能体的记忆机制支持上下文保留和历史知识积累，分为：

短期记忆：保存近期交互内容以辅助当前决策；

长期记忆：构建知识库或向量数据库，支持多模态数据的统一表示和检索，支撑智能体跨任务、跨环境的学习与迁移。

三、驱动方法

1. 提示词驱动方法（Prompt-based）

该路径利用LLM通过自然语言提示驱动智能体执行任务，具备高度灵活性与良好的零样本能力，主要依赖：

链式思维（CoT）提示：增强任务推理与分步执行能力；

感知工具辅助：通过OCR、图标识别等方式将图像转为文本形式供LLM处理；

记忆机制：引入探索机制以建立任务记忆，避免重复学习。

提示词驱动方法优点是开发部署便捷、适应新任务快；缺点是推理速度慢、依赖外部API、数据隐私受限、运行成本高。

2. 训练驱动方法（Training-based）

此类方法通过微调或强化学习对模型进行针对性训练，构建更稳定高效的AI智能体。

预训练多模态模型：如LLaVA、Qwen-VL集成视觉与语言能力，适合界面理解与导航任务；

精调优化：结合数据增强与任务细分策略，使模型适应特定的移动任务；

强化学习：边训练边评估，适合高交互频场景。

训练驱动方法优点是推理快、成本低、数据可控，适合大规模部署；缺点是部署维护成本高、灵活性差。

总之，提示词驱动方法适合快速迭代、任务频繁变动的场景；训练驱动适合高频、延迟敏感、数据安全要求高的工业级应用。

四、评估体系与数据基准

1. 静态数据集

静态数据集用于评估智能体对界面元素的识别与命令执行能力，通常包含任务描述、界面截图、UI结构等信息。

2. 仿真环境

模拟环境提供动态任务反馈和状态更新，适合训练适应性强的智能体，特别适用于强化学习或LLM驱动的交互代理。

3. 真实环境

相比封闭环境，真实场景能更真实反映用户行为、界面变化和设备差异。但同时也带来可复现性差、安全性不足等挑战。为了在开放场景中实现有效评估，研究者尝试采用“回放机制”等手段提高控制性。

4. 评估方法

轨迹评估：关注智能体执行过程是否与标准路径一致；

结果评估：关注任务是否完成，能更宽容不同策略但实现同一目标的情况。

图3 AI智能体评估方法及工具示例

总体而言，当前评估体系仍需统一的标准和更高维度的评价指标，以更准确衡量智能体的通用性与鲁棒性。

五、未来发展方向

图4 现实世界面临挑战

未来的AI智能体研究应聚焦于：

安全性与隐私保护；

多智能体协同与通信；

动态环境中更强的泛化能力；

更标准化和可复现的评估框架；

更轻量级、端侧可部署的模型架构。

参考来源：

Wu, B., Li, Y., Wei, Y., Fang, M., & Chen, L. (2024).?Foundations and Recent Trends in Multimodal Mobile Agents: A Survey. arXiv preprint arXiv:2411.02006.?https://arxiv.org/abs/2411.02006