让 AI 住进你的网页：Page-Agent 开启 SaaS 系统“自动驾驶”时代

code

alibaba/page-agent 是由阿里巴巴开源的一个 纯前端 GUI Agent（图形用户界面智能代理） 框架。它的核心理念是“让 AI 住在你的网页里”，通过简单的集成，让 AI 能够像人类用户一样理解并操作网页。

以下是对该项目的详细介绍：

1. 核心定位

Page-Agent 与传统的浏览器自动化工具（如 Selenium、Playwright）或基于 Python 的 AI Agent（如 Browser-use）不同，它主要面向Web 开发者。它通过在网页中嵌入一段 JavaScript 代码，直接将 AI 能力赋予现有的 Web 应用，而无需复杂的后端环境或无头浏览器。

2. 主要特点

零基础设施（Zero Infrastructure）：无需 Python 环境，无需服务器端浏览器，仅需通过一个 <script> 标签或 NPM 包即可集成。
基于文本的 DOM 分析：它不依赖截图或多模态模型（VLM），而是将复杂的 DOM 树进行“脱水”简化成纯文本，让 LLM（大语言模型）能够快速、精准地理解页面结构并进行点击、输入等操作。
人机协同（Human-in-the-Loop）：内置了交互面板。当 AI 遇到不确定的操作时，会主动询问用户，用户也可以随时接管操作，确保安全性。
自带隐私保护：支持数据脱敏（Data Masking），可以在敏感信息传给 AI 之前进行过滤。
自带 UI 面板：提供了一个精美的侧边栏 UI，用户可以直接在网页上通过自然语言与 AI 沟通。

3. 技术架构

该项目采用 Monorepo 结构，主要分为以下几个核心模块：

Core (@page-agent/core)：核心逻辑层，负责与 LLM 交互和任务调度。
Page Controller：DOM 操作层，负责 DOM 提取、简化（Dehydration）以及执行模拟点击/滚动等动作。
UI：基于 React 开发的交互面板。
Extension：可选的浏览器扩展版本，用于支持跨标签页、跨域名的复杂任务。

4. 典型应用场景

SaaS 智能助手：为复杂的 B2B 系统或管理后台添加 AI 导航，用户说“帮我查一下上个月的报销单并导出”，AI 自动完成路径跳转和点击。
自动化测试/演示：自动演示产品功能流转，生成交互式教程。
无障碍辅助：通过自然语言界面，帮助视障人士或老年人操作复杂的网页应用。
存量系统改造：无需修改老系统的后端逻辑，仅在前端集成即可实现“AI 化”。

5. 局限性

非视觉化：因为它不看截图，所以无法识别 Canvas、WebGL、视频或纯绘图内容。
依赖 DOM 语义：如果网页的 HTML 结构极其混乱或完全没有语义，AI 的理解准确度会下降。
交互限制：目前对拖拽（Drag & Drop）、复杂组合键的支持尚在完善中。

6. 快速开始

如果你想在自己的项目中使用，可以按照以下方式引入：

JavaScript

import { PageAgent } from 'page-agent';

const agent = new PageAgent({
  model: 'gpt-4o', // 或 qwen-max, deepseek-chat 等
  apiKey: 'YOUR_API_KEY',
});

// 启动 Agent 任务
agent.run("帮我把这个表单填好，姓名叫张三，邮箱是 zhangsan@example.com");

项目地址： [链接登录后可见]

在线文档： [链接登录后可见]

此内容登录或注册后可见