Kylin desktop ai agent

基于多模态模型进行操作计算机的框架

基于开源框架self-operating-computer，进行国内大模型适配以及开源麒麟系统适配。原理为大模型模仿人类行为，使用鼠标键盘进行相同的输入和输出，并截图屏幕获取信息来决定一系列鼠标和键盘动作以达到目标。

关键特性

兼容性:设计用于各种多模态模型。
集成:目前集成了qwen-vl系列模型,gpt - 4o, Gemini Pro Vision, Claude 3和LLaVa模型
未来计划:减少bug，更好兼容国内模型，进行更多的端侧模型适配。

Demo

链接：https://pan.baidu.com/s/1rzWnrOdZudE5tkeq92rhmg?pwd=lfz1 提取码：lfz1

该demo为在openkylin系统中部署的llava模型实现，另有通过gpt4o在mac上实现的demo，因时间关系未能在openkylin上复现。

Run `Kylin desktop ai agent`

安装项目

pip install .

启动项目

operate

输入 OpenAI Key:请输入您的openai key， openai的GPT4o模型当前具有最优表现，如您未拥有所需的api key，可以尝试下面的方法在本地启动项目。

在本地启动项目

通过 Ollama 尝试端侧模型 LLaVa

在您自己的机器上使用本框架来尝试 LLaVA，您可以使用 Ollama 来实现！

注意：Ollama 目前仅支持 MacOS ， Linux 和 kylin

首先，从 https://ollama.ai/download 安装 Ollama。

Ollama 安装完成后，拉取 LLaVA 模型：

ollama pull llava

这将在您的机器上下载模型，大约需要 5 GB 的存储空间。

Ollama 完成拉取 LLaVA 后，启动服务器：

ollama serve

现在启动 operate 并选择 LLaVA 模型：

operate -m llava

重要提示： 使用 LLaVA 时错误率比较高。这仅仅是作为一个基础，随着本地多模态模型的不断改进，未来会不断改进。

使用 `operate` 进行操作

多模态模型选择 `-m`

启动 qwen-vl-plus

operate -m qwen-vl-plus

启动 operate 使用 Gemini 模型

operate -m gemini-pro-vision

当终端提示您输入 Google AI Studio API 密钥时 如果您还没有，请在设置好您的 Google AI Studio 账户后，在这里获取一个。您可能还需要为桌面应用程序授权凭证。但在中国大陆地区可能很难实现。

尝试 Claude `-m claude-3`

使用 Claude 3 。前往 Claude 控制台获取 API 密钥，并运行下面的命令尝试。

operate -m claude-3

语音模式 `--voice`

该框架支持目标的语音输入。按照以下说明尝试语音模式。

克隆仓库 到您计算机上的一个目录：

git clone https://gitlink.org.cn/ptAGUR5Xe8/zmaa.git

进入目录：

cd kylin_ai_agent

安装额外的 requirements-audio.txt

pip install -r requirements-audio.txt

安装设备要求 对于 Mac 用户：

brew install portaudio

对于 Linux 用户：

sudo apt install portaudio19-dev python3-pyaudio

以语音模式运行

operate --voice

ocr模式 `-m qwen-vl-plus-with-ocr`

本agent框架现在通过 qwen-vl-plus-with-ocr和 gpt-4-with-ocr模式集成了光学字符识别 (OCR) 功能。这种模式为qwen-vl提供了一个可点击元素的坐标哈希映射。qwen-vl 可以决定通过文本 click 元素，然后代码引用哈希映射来获取 qwen-vl 想要点击的元素的坐标。

基于最近的测试，OCR 的表现优于 som 和普通的 qwen-vl，所以我们将其设为项目默认。要使用 OCR 模式，您可以简单地写：

operate 或 operate -m qwen-vl-plus-with-ocr 也可以。

GPT4o结合OCR 的表现优于 som 和普通的 gpt4o，是本框架目前最优的效果

标记集合提示 `-m gpt-4-with-som`

本框架现在支持使用 gpt-4-with-som 命令的标记集合 (SoM) 提示。这种新的视觉提示方法增强了大型多模态模型的视觉定位能力。

在详细的 arXiv 论文中了解更多关于 SoM 提示的信息：这里。

对于这个初始版本，一个简单的 YOLOv8 模型被训练用于按钮检测，best.pt 文件包含在 model/weights/ 下。鼓励用户更换他们的 best.pt 文件以评估性能改进。如果您的模型表现优于现有的模型，请通过创建拉取请求 (PR) 贡献。

使用 SoM 模型启动 operate

operate -m gpt-4-with-som

兼容性

此项目与 Mac OS、Windows 和 Linux（已安装 X 服务器）兼容。

Kylin desktop ai agent

关键特性

Demo

Run Kylin desktop ai agent

通过 Ollama 尝试端侧模型 LLaVa

使用 operate 进行操作

多模态模型选择 -m

尝试 Claude -m claude-3

语音模式 --voice

ocr模式 -m qwen-vl-plus-with-ocr

标记集合提示 -m gpt-4-with-som

兼容性