文档演示视频在docs文件夹下
本项目实现了一款 完全离线、零学习成本、智能多模态 的表单自动填写软件。用户只需在简洁的 PySide6 界面上 选择资料文件夹和表单模板,系统即可自动完成:
.docx
.xlsx
/data
form_filler/ ├── main.py # 主程序入口 ├── script.py # 各个功能不同版本代码 ├── requirements.txt # pip依赖文件 ├── data/ # 测试文件夹,内含 pdf/docx/jpg/mp3 等 ├── result/ # 自动填写后的输出文档 └── README.md # 本部署说明文件
conda create -n form_filler python=3.10 -y conda activate form_filler
🔧 使用 Python 3.10 是为了兼容 paddleocr、vosk 等依赖包,避免版本冲突。
paddleocr
vosk
pip install -r requirements.txt
💡 requirements.txt 包含了 OCR(PaddleOCR)、音频识别(VOSK)、PDF处理(PyMuPDF)、Excel/Word处理、可视化界面(Tkinter)、本地模型调用(Ollama)等所有依赖库。
requirements.txt
本项目通过 Ollama 进行本地化大语言模型推理,确保离线环境可用。
ollama pull qwen:7b
🧠 Qwen-7B 是阿里云开源的大语言模型,推理能力强、响应速度快,且支持本地部署。
ollama run qwen:7b
键入任意问题即可验证是否启动成功。项目中的 main.py 会调用本地接口。
main.py
项目主程序为 main.py,通过图形界面操作文件夹批量导入信息。
python main.py
fangsong ti
如下图所示,项目将从图像/PDF/音频等中提取的信息通过 Qwen-7B 结构化为 JSON:
{ "姓名": "张三", "性别": "男", "出生日期": "1995-01-01", "身份证号": "142724199501019876", "手机号": "13800135678", "毕业院校": "上海交通大学", "兴趣爱好": "篮球、编程" }
并将以上信息自动写入 .docx 或 .xlsx 表单。
请在 data2/ 中准备如下文件进行功能测试:
data2/
*.jpg
*.docx
*.xlsx
*.mp3
*.pdf
*.txt
请在 result/ 中准备如下文件进行功能测试:
result/
本项目遵循 MIT License,欢迎学习与二次开发,禁止用于非法用途。
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
📝 表单自动填写软件(决赛版 · 智能多模态 LLM)
本项目实现了一款 完全离线、零学习成本、智能多模态 的表单自动填写软件。
用户只需在简洁的 PySide6 界面上 选择资料文件夹和表单模板,系统即可自动完成:
.docx或.xlsx表单,并一键打开 LibreOffice 查看。✨ 核心特点
用户界面直观,操作流程简单 → 选择文件夹 → 选择模板 → 点击开始
即使完全没有技术背景,也能立即上手。
内置多种本地大模型(通过 Ollama 管理):
我们在
/data文件夹中使用了真实的个人数据:让系统在真实环境下充分验证鲁棒性。
完全离线运行,所有数据仅在本地处理,不依赖任何外部 API。
数据来源
运行效果
🧰 项目目录结构(简略)
⚙️ 环境搭建步骤(推荐使用 Conda)
✅ 第一步:创建 Conda 虚拟环境
✅ 第二步:安装 pip 依赖
🧠 第三步:本地部署 Qwen 7B 模型(通过 Ollama)
本项目通过 Ollama 进行本地化大语言模型推理,确保离线环境可用。
🧩 安装 Ollama(需具备 GPU 运行环境)
🔄 验证模型是否可用:
键入任意问题即可验证是否启动成功。项目中的
main.py会调用本地接口。🚀 启动项目(main.py)
项目主程序为
main.py,通过图形界面操作文件夹批量导入信息。✨ 功能简介
.docx与.xlsx表单模板🛡️ 注意事项
fangsong ti字体,并作为 Tkinter 默认字体。📚 示例展示
如下图所示,项目将从图像/PDF/音频等中提取的信息通过 Qwen-7B 结构化为 JSON:
并将以上信息自动写入
.docx或.xlsx表单。📦 模型和依赖推荐说明
🧪 示例测试文件夹
请在
data2/中准备如下文件进行功能测试:*.jpg:带有身份信息等的图像;*.docx:带有身份信息等的word文档;*.xlsx:带有身份信息等的Excel表单;*.mp3:带有身份信息的语音内容;*.pdf/*.txt:带有身份信息的文本文件。请在
result/中准备如下文件进行功能测试:*.docx:表单模板;*.xlsx:Excel表单模板;🧾 授权 License
本项目遵循 MIT License,欢迎学习与二次开发,禁止用于非法用途。