目录
目录README.md

大模型表单自动填写系统

项目简介

本项目旨在基于大语言模型(LLM)和本地化智能技术,实现多格式文档的自动解析、用户信息抽取与表单自动填写。系统支持端侧本地部署,兼顾数据隐私与高效处理,适用于政企、教育、个人等多种场景。

主要功能

  • 支持 docx、excel、wav、md 等多种文档格式的自动解析与内容提取
  • 基于大模型的文本向量化、关键词提取与智能检索
  • 自动采集本地用户信息,构建用户信息体系
  • 表单内容自动填写与批量处理
  • RESTful API 支持文档插入、检索、格式转换等操作
  • 端侧本地化部署,保障数据安全与隐私

模块结构

  • collector-java:基于 Java 和 Spring Boot 的数据采集模块,支持文件、目录、数据库等多源数据的自动扫描与采集,并通过 Kafka 进行消息传递。
  • doc2vec:基于 Python 和 FastAPI 的文档向量化与检索模块,支持文档格式转换、分词、嵌入、向量存储与高效检索。
  • llm_worker:大模型推理与表单自动填写工具集。
  • deploy:包含 Milvus、Kafka 等依赖服务的部署脚本与配置。
  • fromt-end:前端页面,是直接于用户交互的部分

安装与运行

  1. 安装 Git LFS(只需一次) 在新机器或新环境,先安装 Git LFS: Linux/macOS: Apply to .gitattribut… Run install 如未安装 LFS,可用 brew install git-lfs(macOS)或 sudo apt install git-lfs(Ubuntu)等命令安装。
  2. 克隆项目:
    git clone <项目地址>
    cd llmform
  3. 安装依赖与服务(以 doc2vec 为例):
    cd doc2vec
    pip install -r requirements.txt
    python main.py
  4. 启动rag 服务:运行doc2vec/main.py
  5. 启动 collector-java(需 JDK 17 和 Maven):
    cd collector-java/engine
    mvn clean install
    java -jar target/engine-1.0-SNAPSHOT.jar
  6. 依赖服务(Milvus、Kafka)可参考 deploy 目录下的 docker-compose 文件进行部署。

依赖环境

  • Python 3.10 及以上
  • Java 17 及以上
  • Milvus 向量数据库
  • Kafka 消息队列
  • 主要依赖库:FastAPI、pymilvus、APScheduler、jieba、mammoth、pandas、faster-whisper、ollama、Spring Boot、spring-kafka 等
  • 环境配置方式
    pip install -r requirements.txt

启动方式

前端

cd front-end
pnpm dev

后端(大模型服务)

创建虚拟环境 根据/llm_worker/requirements.txt 安装所需包

cd llm_worker
python RunServer.py

后端(RAG-api服务)

cd doc2vec
HF_ENDPOINT=https://hf-mirror.com python main.py

Docker(RAG-数据库服务)

cd deploy/kafka
docker compose up -d

Docker(向量数据库容器)

cd deploy/milvus
docker compose up -d

Docker(用户信息提取)

cd deploy/kafka
docker compose up -d

表头理解模型权重: 通过网盘分享的文件:Qwen2.5-7B-Instruct-table_merged 链接: https://pan.baidu.com/s/1zg9HCgk5p7Q8XMrjyVv1JA?pwd=1234 提取码: 1234

表单填写模型权重: 通过网盘分享的文件:qwen2.5-7b-instruct-merged 链接: https://pan.baidu.com/s/1-hOK8DjdgLNSD0oUw9uF2w?pwd=1234 提取码: 1234

联系方式

如有问题或建议,请通过 issue 或邮箱与开发团队联系。

许可证

本项目采用 MIT License 开源协议。

关于
6.4 GB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号