alibaba/page-agent 是由阿里巴巴开源的一个 纯前端 GUI Agent(图形用户界面智能代理) 框架。它的核心理念是“让 AI 住在你的网页里”,通过简单的集成,让 AI 能够像人类用户一样理解并操作网页。
以下是对该项目的详细介绍:
1. 核心定位
Page-Agent 与传统的浏览器自动化工具(如 Selenium、Playwright)或基于 Python 的 AI Agent(如 Browser-use)不同,它主要面向Web 开发者。它通过在网页中嵌入一段 JavaScript 代码,直接将 AI 能力赋予现有的 Web 应用,而无需复杂的后端环境或无头浏览器。
2. 主要特点
零基础设施(Zero Infrastructure):无需 Python 环境,无需服务器端浏览器,仅需通过一个 <script> 标签或 NPM 包即可集成。
基于文本的 DOM 分析:它不依赖截图或多模态模型(VLM),而是将复杂的 DOM 树进行“脱水”简化成纯文本,让 LLM(大语言模型)能够快速、精准地理解页面结构并进行点击、输入等操作。
人机协同(Human-in-the-Loop):内置了交互面板。当 AI 遇到不确定的操作时,会主动询问用户,用户也可以随时接管操作,确保安全性。
自带隐私保护:支持数据脱敏(Data Masking),可以在敏感信息传给 AI 之前进行过滤。
自带 UI 面板:提供了一个精美的侧边栏 UI,用户可以直接在网页上通过自然语言与 AI 沟通。
3. 技术架构
该项目采用 Monorepo 结构,主要分为以下几个核心模块:
Core (@page-agent/core):核心逻辑层,负责与 LLM 交互和任务调度。
Page Controller:DOM 操作层,负责 DOM 提取、简化(Dehydration)以及执行模拟点击/滚动等动作。
UI:基于 React 开发的交互面板。
Extension:可选的浏览器扩展版本,用于支持跨标签页、跨域名的复杂任务。
4. 典型应用场景
SaaS 智能助手:为复杂的 B2B 系统或管理后台添加 AI 导航,用户说“帮我查一下上个月的报销单并导出”,AI 自动完成路径跳转和点击。
自动化测试/演示:自动演示产品功能流转,生成交互式教程。
无障碍辅助:通过自然语言界面,帮助视障人士或老年人操作复杂的网页应用。
存量系统改造:无需修改老系统的后端逻辑,仅在前端集成即可实现“AI 化”。
5. 局限性
非视觉化:因为它不看截图,所以无法识别 Canvas、WebGL、视频或纯绘图内容。
依赖 DOM 语义:如果网页的 HTML 结构极其混乱或完全没有语义,AI 的理解准确度会下降。
交互限制:目前对拖拽(Drag & Drop)、复杂组合键的支持尚在完善中。
6. 快速开始
如果你想在自己的项目中使用,可以按照以下方式引入:
JavaScript
import { PageAgent } from 'page-agent';
const agent = new PageAgent({
model: 'gpt-4o', // 或 qwen-max, deepseek-chat 等
apiKey: 'YOUR_API_KEY',
});
// 启动 Agent 任务
agent.run("帮我把这个表单填好,姓名叫张三,邮箱是 zhangsan@example.com");
项目地址: [链接登录后可见]
在线文档: [链接登录后可见]