Bytebot 是一款自托管的 AI 桌面代理,通过自然语言命令自动化计算机任务,运行在容器化的 Linux 桌面环境中-开源码库社区-开源分享-6协议-村兔网

Bytebot 是一款自托管的 AI 桌面代理,通过自然语言命令自动化计算机任务,运行在容器化的 Linux 桌面环境中

 

Bytebot:开源AI桌面代理

一个拥有自己电脑来帮你完成任务的人工智能


 bytebot_github_login.mp4 

 bytebot_uc_2.mp4 

什么是桌面代理?

桌面代理是一种拥有自己计算机的人工智能。与仅浏览器代理或传统的RPA工具不同,Bytebot配备了完整的虚拟桌面,能够:

  • 使用任何应用程序(浏览器、邮件客户端、办公工具、IDE)
  • 下载并组织文件,使用自己的文件系统
  • 使用密码管理器登录网站和应用程序
  • 阅读和处理文档、PDF和电子表格
  • 完成跨不同程序的复杂多步骤工作流程

可以把它想象成一个拥有自己电脑的虚拟员工,可以像人类一样看到屏幕、移动鼠标、敲键盘,完成任务。

为什么要给人工智能配备自己的计算机?

当AI能够访问完整的桌面环境时,它解锁了仅靠浏览器代理或API集成无法实现的功能:

完全任务自主

给Bytebot一个任务,比如“从我们的供应商门户下载所有发票并整理到文件夹里”,它会:

  • 打开浏览器
  • 导航到每个传送门
  • 处理认证(包括通过密码管理器实现双重认证)
  • 将文件下载到本地文件系统
  • 把它们整理到文件夹里

流程文件

直接上传文件到 Bytebot 的桌面,它可以:

  • 把整份PDF放在上下文中阅读
  • 从复杂文档中提取数据
  • 跨多个文件交叉核对信息
  • 基于分析创建新文档
  • 处理API无法访问的格式

使用真实应用

Bytebot 并不局限于网页界面。它可以:

  • 使用桌面应用程序,如文本编辑器、VS Code或电子邮件客户端
  • 运行脚本和命令行工具
  • 根据需要安装新软件
  • 针对特定工作流程配置应用程序

快速入门

2分钟内部署

选项1:铁路(最简单) 部署于铁路

只需点击并添加你的 AI 服务提供商 API 密钥即可。

选项二:Docker Compose

git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot

# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env

docker-compose -f docker/docker-compose.yml up -d

# Open http://localhost:9992
 

完整部署指南→

工作原理

字节机器人由四个集成组件组成:

  1. 虚拟桌面:一个完整的 Ubuntu Linux 环境,预装应用程序
  2. AI代理:了解你的任务并控制桌面完成任务
  3. 任务界面:网页界面,你可以创建任务并观看字节机器人的工作
  4. API:用于程序化任务创建和桌面控制的 REST 端点

主要特征

  • 自然语言任务:只需描述你需要完成的内容
  • 文件上传:将文件放入任务中,供 Bytebot 处理
  • 实时桌面视图:实时观看字节机器人工作
  • 接管模式:当你需要帮助或配置某些事情时,就接
  • 密码管理器支持:安装1Password、Bitwarden等以实现自动认证
  • 持久环境:安装程序后,它们会保持对未来任务的可用性

示例任务

基本示例

"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"
 

文件处理

"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"
 

多应用工作流程

"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"
 

程序控制

通过API创建任务

import requests

# Simple task
response = requests.post('http://localhost:9991/tasks', json={
    'description': 'Download the latest sales report and create a summary'
})

# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
    data={'description': 'Review these contracts for important dates'},
    files=files
)
 

直接桌面控制

# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
  -H "Content-Type: application/json" \
  -d '{"action": "screenshot"}'

# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
  -H "Content-Type: application/json" \
  -d '{"action": "click_mouse", "coordinate": [500, 300]}'
 

完整的API文档→

设置您的桌面代理

1. 部署字节机器人

使用上面的部署方法之一来启动 Bytebot。

2. 配置桌面

在UI中使用桌面标签:

  • 安装你需要的额外程序
  • 设置密码管理器进行身份验证
  • 根据你的偏好配置应用
  • 登录你希望 Bytebot 访问的网站

3. 开始布置任务

用自然语言创建任务,然后观看Bytebot用配置好的桌面完成它们。

使用场景

业务流程自动化

  • 发票处理与数据提取
  • 多系统数据同步
  • 从多个来源生成报告
  • 跨平台合规检查

开发与测试

  • 自动化用户界面测试
  • 跨浏览器兼容性检查
  • 带截图的文档生成
  • 代码部署验证

研究与分析

  • 各网站的竞争分析
  • 从多个来源收集数据
  • 文档分析与总结
  • 市场调研汇编

建筑

Bytebot 由以下组件构建:

  • 桌面:Ubuntu 22.04,搭载XFCE、Firefox、VS Code及其他工具
  • 代理:协调AI和桌面作的NestJS服务
  • UI:Next.js任务管理应用
  • AI支持:可与Anthropic Claude、OpenAI GPT、Google Gemini配合使用
  • 部署:Docker 容器,方便自托管

为什么选择自主机?

  • 数据隐私:一切都运行在你的基础设施上
  • 完全控制:根据需要自定义桌面环境
  • 无限制:使用您自己的AI API密钥,不受平台限制
  • 灵活性:安装任何软件,访问任何系统

高级功能

多个人工智能提供商

通过我们的LiteLLM集成,使用任何AI提供商:

  • Azure OpenAI
  • AWS Bedrock
  • 本地模型,Ollama
  • 100+ 其他供应商

企业部署

在 Kubernetes 上部署 Helm:

# Clone the repository
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot

# Install with Helm
helm install bytebot ./helm \
  --set agent.env.ANTHROPIC_API_KEY=sk-ant-...

 

请登录后发表评论

    没有回复内容