Bytebot:开源AI桌面代理
一个拥有自己电脑来帮你完成任务的人工智能
bytebot_github_login.mp4
bytebot_uc_2.mp4
什么是桌面代理?
桌面代理是一种拥有自己计算机的人工智能。与仅浏览器代理或传统的RPA工具不同,Bytebot配备了完整的虚拟桌面,能够:
- 使用任何应用程序(浏览器、邮件客户端、办公工具、IDE)
- 下载并组织文件,使用自己的文件系统
- 使用密码管理器登录网站和应用程序
- 阅读和处理文档、PDF和电子表格
- 完成跨不同程序的复杂多步骤工作流程
可以把它想象成一个拥有自己电脑的虚拟员工,可以像人类一样看到屏幕、移动鼠标、敲键盘,完成任务。
为什么要给人工智能配备自己的计算机?
当AI能够访问完整的桌面环境时,它解锁了仅靠浏览器代理或API集成无法实现的功能:
完全任务自主
给Bytebot一个任务,比如“从我们的供应商门户下载所有发票并整理到文件夹里”,它会:
- 打开浏览器
- 导航到每个传送门
- 处理认证(包括通过密码管理器实现双重认证)
- 将文件下载到本地文件系统
- 把它们整理到文件夹里
流程文件
直接上传文件到 Bytebot 的桌面,它可以:
- 把整份PDF放在上下文中阅读
- 从复杂文档中提取数据
- 跨多个文件交叉核对信息
- 基于分析创建新文档
- 处理API无法访问的格式
使用真实应用
Bytebot 并不局限于网页界面。它可以:
- 使用桌面应用程序,如文本编辑器、VS Code或电子邮件客户端
- 运行脚本和命令行工具
- 根据需要安装新软件
- 针对特定工作流程配置应用程序
快速入门
2分钟内部署
选项1:铁路(最简单)
只需点击并添加你的 AI 服务提供商 API 密钥即可。
选项二:Docker Compose
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env
docker-compose -f docker/docker-compose.yml up -d
# Open http://localhost:9992
完整部署指南→
工作原理
字节机器人由四个集成组件组成:
- 虚拟桌面:一个完整的 Ubuntu Linux 环境,预装应用程序
- AI代理:了解你的任务并控制桌面完成任务
- 任务界面:网页界面,你可以创建任务并观看字节机器人的工作
- API:用于程序化任务创建和桌面控制的 REST 端点
主要特征
- 自然语言任务:只需描述你需要完成的内容
- 文件上传:将文件放入任务中,供 Bytebot 处理
- 实时桌面视图:实时观看字节机器人工作
- 接管模式:当你需要帮助或配置某些事情时,就接手
- 密码管理器支持:安装1Password、Bitwarden等以实现自动认证
- 持久环境:安装程序后,它们会保持对未来任务的可用性
示例任务
基本示例
"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"
文件处理
"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"
多应用工作流程
"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"
程序控制
通过API创建任务
import requests
# Simple task
response = requests.post('http://localhost:9991/tasks', json={
'description': 'Download the latest sales report and create a summary'
})
# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
data={'description': 'Review these contracts for important dates'},
files=files
)
直接桌面控制
# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "screenshot"}'
# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "click_mouse", "coordinate": [500, 300]}'
完整的API文档→
设置您的桌面代理
1. 部署字节机器人
使用上面的部署方法之一来启动 Bytebot。
2. 配置桌面
在UI中使用桌面标签:
- 安装你需要的额外程序
- 设置密码管理器进行身份验证
- 根据你的偏好配置应用
- 登录你希望 Bytebot 访问的网站
3. 开始布置任务
用自然语言创建任务,然后观看Bytebot用配置好的桌面完成它们。
使用场景
业务流程自动化
- 发票处理与数据提取
- 多系统数据同步
- 从多个来源生成报告
- 跨平台合规检查
开发与测试
- 自动化用户界面测试
- 跨浏览器兼容性检查
- 带截图的文档生成
- 代码部署验证
研究与分析
- 各网站的竞争分析
- 从多个来源收集数据
- 文档分析与总结
- 市场调研汇编
建筑
Bytebot 由以下组件构建:
- 桌面:Ubuntu 22.04,搭载XFCE、Firefox、VS Code及其他工具
- 代理:协调AI和桌面作的NestJS服务
- UI:Next.js任务管理应用
- AI支持:可与Anthropic Claude、OpenAI GPT、Google Gemini配合使用
- 部署:Docker 容器,方便自托管
为什么选择自主机?
- 数据隐私:一切都运行在你的基础设施上
- 完全控制:根据需要自定义桌面环境
- 无限制:使用您自己的AI API密钥,不受平台限制
- 灵活性:安装任何软件,访问任何系统
高级功能
多个人工智能提供商
通过我们的LiteLLM集成,使用任何AI提供商:
- Azure OpenAI
- AWS Bedrock
- 本地模型,Ollama
- 100+ 其他供应商
企业部署
在 Kubernetes 上部署 Helm:
# Clone the repository
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Install with Helm
helm install bytebot ./helm \
--set agent.env.ANTHROPIC_API_KEY=sk-ant-...


没有回复内容