readme update
基于多模态模型进行操作计算机的框架
基于开源框架self-operating-computer,进行国内大模型适配以及开源麒麟系统适配。 原理为大模型模仿人类行为,使用鼠标键盘进行相同的输入和输出,并截图屏幕获取信息来决定一系列鼠标和键盘动作以达到目标。
链接:https://pan.baidu.com/s/1rzWnrOdZudE5tkeq92rhmg?pwd=lfz1 提取码:lfz1
该demo为在openkylin系统中部署的llava模型实现,另有通过gpt4o在mac上实现的demo,因时间关系未能在openkylin上复现。
Kylin desktop ai agent
安装项目
pip install .
启动项目
operate
输入 OpenAI Key:请输入您的openai key, openai的GPT4o模型当前具有最优表现,如您未拥有所需的api key,可以尝试下面的方法在本地启动项目。
在本地启动项目
在您自己的机器上使用本框架来尝试 LLaVA,您可以使用 Ollama 来实现!
注意:Ollama 目前仅支持 MacOS , Linux 和 kylin
首先,从 https://ollama.ai/download 安装 Ollama。
Ollama 安装完成后,拉取 LLaVA 模型:
ollama pull llava
这将在您的机器上下载模型,大约需要 5 GB 的存储空间。
Ollama 完成拉取 LLaVA 后,启动服务器:
ollama serve
现在启动 operate 并选择 LLaVA 模型:
operate -m llava
重要提示: 使用 LLaVA 时错误率比较高。这仅仅是作为一个基础,随着本地多模态模型的不断改进,未来会不断改进。
-m
启动 qwen-vl-plus
operate -m qwen-vl-plus
启动 operate 使用 Gemini 模型
operate -m gemini-pro-vision
当终端提示您输入 Google AI Studio API 密钥时 如果您还没有,请在设置好您的 Google AI Studio 账户后,在这里 获取一个。您可能还需要为桌面应用程序授权凭证。但在中国大陆地区可能很难实现。
-m claude-3
使用 Claude 3 。前往 Claude 控制台 获取 API 密钥,并运行下面的命令尝试。
operate -m claude-3
--voice
该框架支持目标的语音输入。按照以下说明尝试语音模式。
克隆仓库 到您计算机上的一个目录:
git clone https://gitlink.org.cn/ptAGUR5Xe8/zmaa.git
进入目录:
cd kylin_ai_agent
安装额外的 requirements-audio.txt
requirements-audio.txt
pip install -r requirements-audio.txt
安装设备要求 对于 Mac 用户:
brew install portaudio
对于 Linux 用户:
sudo apt install portaudio19-dev python3-pyaudio
以语音模式运行
operate --voice
-m qwen-vl-plus-with-ocr
本agent框架现在通过 qwen-vl-plus-with-ocr和 gpt-4-with-ocr模式集成了光学字符识别 (OCR) 功能。这种模式为qwen-vl提供了一个可点击元素的坐标哈希映射。qwen-vl 可以决定通过文本 click 元素,然后代码引用哈希映射来获取 qwen-vl 想要点击的元素的坐标。
qwen-vl-plus-with-ocr
gpt-4-with-ocr
click
基于最近的测试,OCR 的表现优于 som 和普通的 qwen-vl,所以我们将其设为项目默认。要使用 OCR 模式,您可以简单地写:
som
operate 或 operate -m qwen-vl-plus-with-ocr 也可以。
operate -m qwen-vl-plus-with-ocr
GPT4o结合OCR 的表现优于 som 和普通的 gpt4o,是本框架目前最优的效果
-m gpt-4-with-som
本框架现在支持使用 gpt-4-with-som 命令的标记集合 (SoM) 提示。这种新的视觉提示方法增强了大型多模态模型的视觉定位能力。
gpt-4-with-som
在详细的 arXiv 论文中了解更多关于 SoM 提示的信息:这里。
对于这个初始版本,一个简单的 YOLOv8 模型被训练用于按钮检测,best.pt 文件包含在 model/weights/ 下。鼓励用户更换他们的 best.pt 文件以评估性能改进。如果您的模型表现优于现有的模型,请通过创建拉取请求 (PR) 贡献。
best.pt
model/weights/
使用 SoM 模型启动 operate
operate -m gpt-4-with-som
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
Kylin desktop ai agent
基于多模态模型进行操作计算机的框架
基于开源框架self-operating-computer,进行国内大模型适配以及开源麒麟系统适配。 原理为大模型模仿人类行为,使用鼠标键盘进行相同的输入和输出,并截图屏幕获取信息来决定一系列鼠标和键盘动作以达到目标。
关键特性
Demo
链接:https://pan.baidu.com/s/1rzWnrOdZudE5tkeq92rhmg?pwd=lfz1 提取码:lfz1
该demo为在openkylin系统中部署的llava模型实现,另有通过gpt4o在mac上实现的demo,因时间关系未能在openkylin上复现。
Run
Kylin desktop ai agent
安装项目
启动项目
输入 OpenAI Key:请输入您的openai key, openai的GPT4o模型当前具有最优表现,如您未拥有所需的api key,可以尝试下面的方法在本地启动项目。
在本地启动项目
通过 Ollama 尝试端侧模型 LLaVa
在您自己的机器上使用本框架来尝试 LLaVA,您可以使用 Ollama 来实现!
注意:Ollama 目前仅支持 MacOS , Linux 和 kylin
首先,从 https://ollama.ai/download 安装 Ollama。
Ollama 安装完成后,拉取 LLaVA 模型:
这将在您的机器上下载模型,大约需要 5 GB 的存储空间。
Ollama 完成拉取 LLaVA 后,启动服务器:
现在启动
operate
并选择 LLaVA 模型:重要提示: 使用 LLaVA 时错误率比较高。这仅仅是作为一个基础,随着本地多模态模型的不断改进,未来会不断改进。
使用
operate
进行操作多模态模型选择
-m
启动 qwen-vl-plus
启动
operate
使用 Gemini 模型当终端提示您输入 Google AI Studio API 密钥时 如果您还没有,请在设置好您的 Google AI Studio 账户后,在这里 获取一个。您可能还需要为桌面应用程序授权凭证。但在中国大陆地区可能很难实现。
尝试 Claude
-m claude-3
使用 Claude 3 。前往 Claude 控制台 获取 API 密钥,并运行下面的命令尝试。
语音模式
--voice
该框架支持目标的语音输入。按照以下说明尝试语音模式。
克隆仓库 到您计算机上的一个目录:
进入目录:
安装额外的
requirements-audio.txt
安装设备要求 对于 Mac 用户:
对于 Linux 用户:
以语音模式运行
ocr模式
-m qwen-vl-plus-with-ocr
本agent框架现在通过
qwen-vl-plus-with-ocr
和gpt-4-with-ocr
模式集成了光学字符识别 (OCR) 功能。这种模式为qwen-vl提供了一个可点击元素的坐标哈希映射。qwen-vl 可以决定通过文本click
元素,然后代码引用哈希映射来获取 qwen-vl 想要点击的元素的坐标。基于最近的测试,OCR 的表现优于
som
和普通的 qwen-vl,所以我们将其设为项目默认。要使用 OCR 模式,您可以简单地写:operate
或operate -m qwen-vl-plus-with-ocr
也可以。GPT4o结合OCR 的表现优于
som
和普通的 gpt4o,是本框架目前最优的效果标记集合提示
-m gpt-4-with-som
本框架现在支持使用
gpt-4-with-som
命令的标记集合 (SoM) 提示。这种新的视觉提示方法增强了大型多模态模型的视觉定位能力。在详细的 arXiv 论文中了解更多关于 SoM 提示的信息:这里。
对于这个初始版本,一个简单的 YOLOv8 模型被训练用于按钮检测,
best.pt
文件包含在model/weights/
下。鼓励用户更换他们的best.pt
文件以评估性能改进。如果您的模型表现优于现有的模型,请通过创建拉取请求 (PR) 贡献。使用 SoM 模型启动
operate
兼容性