@misc{zeng2025glimpseprune,
title={A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models},
author={Quan-Sheng Zeng and Yunheng Li and Qilong Wang and Peng-Tao Jiang and Zuxuan Wu and Ming-Ming Cheng and Qibin Hou},
year={2025},
eprint={2508.01548},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2508.01548},
}
GlimpsePrune
English | 简体中文
面向大型视觉语言模型的动态视觉Token剪枝框架
GlimpsePrune 在回答问题前动态剪除大量无关的视觉Token,以降低模型推理开销。
GlimpsePrune 是一个为大型视觉语言模型 (LVLMs) 设计的动态视觉Token剪枝框架。通过在少量数据上进行快速训练(例如,在20K GQA数据上训练少于1小时),GlimpsePrune 能够让 Qwen2.5-VL-7B 在生成回答前,平均剪除 92.6% 的视觉Token,同时保持与原始模型相当的性能。
更多技术细节,请参阅我们的论文。
如果我们的工作对您有启发或者有帮助,请给我们一个star ⭐. 感谢你们的关注与支持:
目录
✨ 主要特性
🚀 最新动态
2025.08.05: 论文 已公开发布!2025.08.03: 代码 和 模型 已公开发布!🖼️ 框架概览
GlimpsePrune 的核心思想是引入一个glimpse token和一个轻量级的**Visual tokens Important Predictor (VIP)**,它能根据文本提示快速识别并保留与问题最相关的视觉区域,剪除其余冗余信息。
核心代码实现位于:
transformers_gp/models/qwen2_5_vl/model_gp.pyllava_gp/model/language_model/llava_llama.py📊 性能结果
我们在多个 VQA 基准上评估了 GlimpsePrune。结果表明,其在实现高剪枝率的同时,性能与原始模型持平,并优于其他视觉压缩方法。
Free-form VQA Benchmarks
Short-form VQA Benchmarks
V* 自由问答效率对比(batch size=4)
✅ 功能路线图
🛠️ 安装指南
克隆仓库
创建环境并安装依赖 我们建议为不同的模型创建分离的环境:
对于 Qwen2.5-VL:
python=3.10torch==2.7.0flash-attn==2.7.4.post1pip install -r qwen_requirements.txtpip install qwen-vl-utils[decord]对于 LLaVA-1.5 (可选):
点击展开 LLaVA 依赖安装
python=3.10torch==2.1.2flash-attn=2.7.3pip install -r llava_requirements.txt评估和 Demo 的额外依赖 (可选):
📦 模型与数据
模型下载
所有模型均可通过 Hugging Face Hub 自动下载。如果遇到网络问题,可以手动下载到本地。
<new_module>是我们训练的额外glimpse token 和 VIP 模块的权重。<base_model><new_module>数据准备
训练和 Free-form VQA 评估使用了 Visual-CoT 数据集。
解压后,
datas目录结构应如下所示:▶️ 如何使用
本地 Demo
我们提供了一个 Gradio Demo 来直观体验 GlimpsePrune 的效果。
推理
关于如何加载模型并进行推理的详细示例,请参考Jupyter Notebook: ➡️
notebook/gp_qwen_tutorial.ipynb评估
我们提供了便捷的评估脚本。
Free-form VQA
Short-form VQA
Efficiency
训练
训练 GlimpsePrune
在 Qwen2.5-VL-3B-Instruct 上训练,需要至少2张 24G 显存的 GPU(如 RTX 3090),耗时约1小时。
训练 GlimpsePrune+ (可选)
在 Qwen2.5-VL-7B-Instruct 上训练,需要4张 80G A100,并额外需要48G显存运行奖励模型,耗时约24小时。
🙏 致谢
本项目基于以下优秀的开源工作,在此表示诚挚的感谢:
🖊️ 引用
如果我们的工作对您有所帮助,请考虑引用我们的论文:
📧 联系我们
如有任何技术问题或学术合作,欢迎通过邮件联系我们:
qszeng[AT]mail.nankai.edu.cn