目录
目录README.md

Kylin desktop ai agent

基于多模态模型进行操作计算机的框架

基于开源框架self-operating-computer,进行国内大模型适配以及开源麒麟系统适配。 原理为大模型模仿人类行为,使用鼠标键盘进行相同的输入和输出,并截图屏幕获取信息来决定一系列鼠标和键盘动作以达到目标。

关键特性

  • 兼容性:设计用于各种多模态模型。
  • 集成:目前集成了qwen-vl系列模型,gpt - 4o, Gemini Pro Vision, Claude 3和LLaVa模型
  • 未来计划:减少bug,更好兼容国内模型,进行更多的端侧模型适配。

Demo

链接:https://pan.baidu.com/s/1rzWnrOdZudE5tkeq92rhmg?pwd=lfz1 提取码:lfz1

该demo为在openkylin系统中部署的llava模型实现,另有通过gpt4o在mac上实现的demo,因时间关系未能在openkylin上复现。

Run Kylin desktop ai agent

安装项目

pip install .

启动项目

operate

输入 OpenAI Key:请输入您的openai key, openai的GPT4o模型当前具有最优表现,如您未拥有所需的api key,可以尝试下面的方法在本地启动项目。

在本地启动项目

通过 Ollama 尝试端侧模型 LLaVa

在您自己的机器上使用本框架来尝试 LLaVA,您可以使用 Ollama 来实现!

注意:Ollama 目前仅支持 MacOS , Linux 和 kylin

首先,从 https://ollama.ai/download 安装 Ollama。

Ollama 安装完成后,拉取 LLaVA 模型:

ollama pull llava

这将在您的机器上下载模型,大约需要 5 GB 的存储空间。

Ollama 完成拉取 LLaVA 后,启动服务器:

ollama serve

现在启动 operate 并选择 LLaVA 模型:

operate -m llava

重要提示: 使用 LLaVA 时错误率比较高。这仅仅是作为一个基础,随着本地多模态模型的不断改进,未来会不断改进。

使用 operate 进行操作

多模态模型选择 -m

启动 qwen-vl-plus

operate -m qwen-vl-plus

启动 operate 使用 Gemini 模型

operate -m gemini-pro-vision

当终端提示您输入 Google AI Studio API 密钥时 如果您还没有,请在设置好您的 Google AI Studio 账户后,在这里 获取一个。您可能还需要为桌面应用程序授权凭证。但在中国大陆地区可能很难实现。

尝试 Claude -m claude-3

使用 Claude 3 。前往 Claude 控制台 获取 API 密钥,并运行下面的命令尝试。

operate -m claude-3

语音模式 --voice

该框架支持目标的语音输入。按照以下说明尝试语音模式。

克隆仓库 到您计算机上的一个目录:

git clone https://gitlink.org.cn/ptAGUR5Xe8/zmaa.git

进入目录

cd kylin_ai_agent

安装额外的 requirements-audio.txt

pip install -r requirements-audio.txt

安装设备要求 对于 Mac 用户:

brew install portaudio

对于 Linux 用户:

sudo apt install portaudio19-dev python3-pyaudio

以语音模式运行

operate --voice

ocr模式 -m qwen-vl-plus-with-ocr

本agent框架现在通过 qwen-vl-plus-with-ocrgpt-4-with-ocr模式集成了光学字符识别 (OCR) 功能。这种模式为qwen-vl提供了一个可点击元素的坐标哈希映射。qwen-vl 可以决定通过文本 click 元素,然后代码引用哈希映射来获取 qwen-vl 想要点击的元素的坐标。

基于最近的测试,OCR 的表现优于 som 和普通的 qwen-vl,所以我们将其设为项目默认。要使用 OCR 模式,您可以简单地写:

operateoperate -m qwen-vl-plus-with-ocr 也可以。

GPT4o结合OCR 的表现优于 som 和普通的 gpt4o,是本框架目前最优的效果

标记集合提示 -m gpt-4-with-som

本框架现在支持使用 gpt-4-with-som 命令的标记集合 (SoM) 提示。这种新的视觉提示方法增强了大型多模态模型的视觉定位能力。

在详细的 arXiv 论文中了解更多关于 SoM 提示的信息:这里

对于这个初始版本,一个简单的 YOLOv8 模型被训练用于按钮检测,best.pt 文件包含在 model/weights/ 下。鼓励用户更换他们的 best.pt 文件以评估性能改进。如果您的模型表现优于现有的模型,请通过创建拉取请求 (PR) 贡献。

使用 SoM 模型启动 operate

operate -m gpt-4-with-som

兼容性

  • 此项目与 Mac OS、Windows 和 Linux(已安装 X 服务器)兼容。
关于
86.8 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号