目录

Kylin-TARS

项目概述

Kylin-TARS 是一个基于桌面操作系统的多智能体 GUI 自动化系统,采用分层架构设计,通过 MCP(Master Control Protocol)协议实现智能体间的标准化通信与协调。系统集成了多个专业领域智能体,结合 System-2 推理引擎与记忆模块,为桌面环境提供智能化的任务执行与系统操作能力。

主要功能特点

多智能体协同框架

系统包含 6 个功能完备的专业智能体,覆盖桌面操作的主要场景:

  • FileAgent - 文件管理智能体,提供文件搜索、移动、批量重命名等操作
  • SettingsAgent - 系统设置智能体,负责壁纸管理、音量调节、蓝牙控制等
  • NetworkAgent - 网络管理智能体,支持 WiFi 扫描与连接、代理配置、网络测速
  • AppAgent - 应用管理智能体,处理应用启动、关闭、快捷操作等
  • MonitorAgent - 系统监控智能体,提供资源状态查询、进程管理、智能体状态监控
  • MediaAgent - 媒体控制智能体,实现媒体播放控制、截图捕获等功能

MCP 标准化通信协议

系统自研 MCP-over-DBus 协议,深度整合 MCP 协议语义与系统原生 D-Bus IPC 机制:

  • 原生轻量设计:基于系统原生 D-Bus 会话总线,无需额外中间件或网络端口监听
  • 标准兼容性:完全对齐 MCP 协议核心语义,现有符合 MCP 规范的工具可低成本接入
  • 多实例支持:支持同一智能体类型的多实例注册,实现水平扩展
  • 负载均衡:基于 CPU 占用率的智能实例选择算法
  • 故障转移:智能体离线时自动切换到备选实例
  • 状态广播:实时同步智能体状态变更

System-2 推理引擎

系统实现了可解释的 System-2 推理模块,支持复杂任务的结构化分解与执行:

  • 任务理解与分解:将自然语言任务描述解析为可执行的多步骤计划
  • 智能体选择:基于任务语义选择最合适的智能体组合
  • 风险评估:识别执行风险并提供回退策略
  • 推理链生成:标准化的 JSON 格式推理链,支持调试与复用
  • 用户偏好注入:根据历史执行记录学习用户操作偏好

记忆与检索系统

内置记忆模块,实现任务轨迹的存储、检索与可视化:

  • 轨迹存储:保存任务描述、推理链、执行结果与截图
  • 语义检索:基于向量相似度的智能轨迹检索
  • 关键词提取:自动提取任务关键词用于索引
  • 可视化展示:记忆图谱可视化,便于理解任务关联
  • 推理链复用:相似任务直接复用历史推理链

协作日志追踪

完整的协作日志系统,支持全链路任务追踪:

  • 细粒度日志:记录每个智能体的调用、参数、返回值与时间戳
  • 日志链关联:将多步骤任务的日志关联为完整执行链
  • 时序追溯:按时间顺序回溯任务执行过程
  • 统计分析:任务成功率、执行时间等统计数据
  • 审计追踪:记录权限检查与敏感操作

统一 Web 界面

基于 Gradio 构建的现代化 Web 管理界面:

  • 任务执行页:统一指令输入、推理链解析、执行结果展示
  • 智能体管理页:各智能体的功能模块与状态监控
  • 记忆轨迹页:历史查询、语义检索、可视化图谱
  • 协作日志页:全链路日志追溯、日志链查询
  • 交互增强:历史指令下拉、推理链格式化、实时日志流、截图轮播
  • 演示模式:预设演示任务与一键快速测试

模型适配层

灵活的模型适配架构,支持多种大语言模型:

  • Qwen2.5 系列:支持 Qwen2.5-7B、Qwen2.5-14B 等不同规模模型
  • vLLM 集成:高效的推理引擎集成
  • 远程 API 支持:模型可部署在本地或远程服务器
  • 自动切换:根据模型可用性自动切换推理后端

权限管理框架

四级权限管控体系,保障系统安全:

  • Admin:管理员级别,拥有所有权限
  • Normal:普通用户级别,支持读写操作
  • Readonly:只读级别,仅允许查询操作
  • Guest:访客级别,受限操作
  • 操作确认:敏感操作需用户二次确认
  • 审计日志:记录所有权限检查与操作决策

技术栈选型

核心技术

技术领域 技术选型 说明
编程语言 Python 3.10+ 主要开发语言
Web UI 框架 Gradio 4.x 提供统一的 Web 管理界面
IPC 通信 D-Bus 智能体间通信协议
AI 推理 vLLM / 外部 API System-2 推理引擎
数据存储 JSON 文件 记忆轨迹、配置存储
系统监控 psutil 进程、CPU、内存监控

GUI 操作工具

  • wmctrl - 窗口管理与控制
  • xdotool - 鼠标键盘输入模拟
  • scrot - 屏幕截图捕获
  • pactl - PulseAudio 音频控制
  • NetworkManager (DBus) - 网络配置管理

开发工具与库

类别 技术选型
Web 框架 gradio
系统监控 psutil
JSON 处理 json5
HTTP 客户端 requests
D-Bus 绑定 dbus-python, PyGObject
日志系统 Python logging
配置管理 JSON 配置文件

系统架构

系统采用四层分层架构设计:

  1. Web UI 层:Gradio 界面,用户交互入口
  2. System-2 推理层:任务分解、智能体选择、风险评估
  3. MCP 协调层:智能体注册、工具路由、负载均衡、故障转移
  4. 智能体执行层:6 个专业智能体,执行具体操作

数据流动

用户任务
  ↓
Gradio UI
  ↓
System-2 推理
  ↓ (任务分解)
记忆检索
  ↓ (检索相似任务)
推理链生成
  ↓
MCP Server
  ↓ (负载均衡/故障转移)
智能体调用
  ↓
执行结果
  ↓
协作日志记录
  ↓
记忆存储
  ↓
结果展示

Kylin-TARS 项目旨在打造一个标准化、可扩展的多智能体桌面自动化框架,为研究人员和开发者提供统一的研究与实现范式。

关于
23.9 MB
邀请码