大模型表单自动填写系统

项目简介

本项目旨在基于大语言模型（LLM）和本地化智能技术，实现多格式文档的自动解析、用户信息抽取与表单自动填写。系统支持端侧本地部署，兼顾数据隐私与高效处理，适用于政企、教育、个人等多种场景。

collector-java：基于 Java 和 Spring Boot 的数据采集模块，支持文件、目录、数据库等多源数据的自动扫描与采集，并通过 Kafka 进行消息传递。
doc2vec：基于 Python 和 FastAPI 的文档向量化与检索模块，支持文档格式转换、分词、嵌入、向量存储与高效检索。
llm_worker：大模型推理与表单自动填写工具集。
deploy：包含 Milvus、Kafka 等依赖服务的部署脚本与配置。
fromt-end：前端页面，是直接于用户交互的部分

安装 Git LFS（只需一次）在新机器或新环境，先安装 Git LFS： Linux/macOS: Apply to .gitattribut… Run install 如未安装 LFS，可用 brew install git-lfs（macOS）或 sudo apt install git-lfs（Ubuntu）等命令安装。
克隆项目：
```
git clone <项目地址>
cd llmform
```

安装依赖与服务（以 doc2vec 为例）：

cd doc2vec
pip install -r requirements.txt
python main.py

启动 collector-java（需 JDK 17 和 Maven）：

cd collector-java/engine
mvn clean install
java -jar target/engine-1.0-SNAPSHOT.jar

Python 3.10 及以上
Java 17 及以上
Milvus 向量数据库
Kafka 消息队列
主要依赖库：FastAPI、pymilvus、APScheduler、jieba、mammoth、pandas、faster-whisper、ollama、Spring Boot、spring-kafka 等
环境配置方式
```
pip install -r requirements.txt
```

cd front-end
pnpm dev

创建虚拟环境根据/llm_worker/requirements.txt 安装所需包

cd llm_worker
python RunServer.py

cd doc2vec
HF_ENDPOINT=https://hf-mirror.com python main.py

cd deploy/kafka
docker compose up -d

cd deploy/milvus
docker compose up -d

cd deploy/kafka
docker compose up -d

表头理解模型权重: 通过网盘分享的文件：Qwen2.5-7B-Instruct-table_merged 链接: https://pan.baidu.com/s/1zg9HCgk5p7Q8XMrjyVv1JA?pwd=1234 提取码: 1234

表单填写模型权重: 通过网盘分享的文件：qwen2.5-7b-instruct-merged 链接: https://pan.baidu.com/s/1-hOK8DjdgLNSD0oUw9uF2w?pwd=1234 提取码: 1234

如有问题或建议，请通过 issue 或邮箱与开发团队联系。

本项目采用 MIT License 开源协议。