@article{feng2025dolphin,
title={Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting},
author={Feng, Hao and Wei, Shu and Fei, Xiang and Shi, Wei and Han, Yingdong and Liao, Lei and Lu, Jinghui and Wu, Binghong and Liu, Qi and Lin, Chunhui and others},
journal={arXiv preprint arXiv:2505.14059},
year={2025}
}
Dolphin: 基于异构锚点提示的文档图像解析
Dolphin(Document Image Parsing via Heterogeneous Anchor Prompting)是一个创新的多模态文档图像解析模型(0.3B),采用”分析-解析”的两阶段范式。本仓库包含Dolphin的演示代码和预训练模型。
📑 概述
由于文档图像中文本段落、图表、公式和表格等元素的复杂交织,文档图像解析具有挑战性。Dolphin通过两阶段方法解决这些挑战:
Dolphin在多样化的页面级和元素级解析任务中取得了优异的性能,同时通过其轻量级架构和并行解析机制确保了卓越的效率。
📅 更新日志
📈 性能表现
🛠️ 安装
克隆仓库:
安装依赖:
使用以下选项之一下载 Dolphin-v2 的预训练模型: 访问我们的Huggingface 模型卡片,或通过以下方式下载模型:
⚡ 推理
Dolphin提供两个推理框架,支持两种解析粒度:
📄 页面级解析
🧩 元素级解析
🎨 元素定位及阅读顺序解析
🌟 主要特性
📮 通知
征集不良案例: 如果您遇到模型表现不佳的案例,我们非常欢迎您在issue中分享。我们正在持续优化和改进模型。
💖 致谢
我们要感谢以下开源项目为本工作提供的灵感和参考:
📝 引用
如果您在研究中发现此代码有用,请使用以下BibTeX条目。
星标历史