Usage and License Notices: This project utilizes certain datasets and checkpoints that are subject to their respective original licenses. Users must comply with all terms and conditions of these original licenses, including but not limited to the OpenAI Terms of Use for the dataset and the specific licenses for base language models for checkpoints trained using the dataset (e.g. Llama community license for LLaMA-2 and Vicuna-v1.5). This project does not impose any additional constraints beyond those stipulated in the original licenses. Furthermore, users are reminded to ensure that their use of the dataset and checkpoints is in compliance with all applicable laws and regulations.
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao
Jun Song, Shiji Song, Gao Huang, Bo Zheng
[ English | 中文 ]
摘要 💡
高分辨率多模态大模型(LMM)面临视觉token过多和视觉平方复杂度的挑战。当前的高分辨率LMM通常能够解决二次复杂度问题,却会生成过量的视觉token。然而,过多的视觉token才是更关键的问题,因为它会导致更显著的计算开销。 为了解决这个问题,我们提出了ConvLLaVA,它采用层次化的主干网络ConvNeXt作为LMM的视觉编码器,以替代Vision Transformer(ViT)。ConvLLaVA将高分辨率图像压缩成富含信息的视觉特征,有效避免了生成过多的视觉token。 为了增强ConvLLaVA的能力,我们提出了两项关键优化措施。
这些优化使得ConvLLaVA能够支持1536x1536分辨率的输入,同时仅生成576个视觉token,并适应任意宽高比的图像。 实验结果显示,我们的方法在主流基准测试上与最先进的模型相比取得了竞争性的性能。
内容
计划
安装
Clone this repository and navigate to ConvLLaVA folder
Install Package
Install additional packages for training cases
模型库
我们的模型的在一些测试基准上的性能如下:
我们的 Model Zoo 中包含了主要的权重和下载方式,并有说明如何使用这些权重。
数据集
我们实验用到的数据在 Data.md 中有介绍。
训练
训练的超参数如下:
训练脚本在文件夹 scripts 中:
评测
我们目前支持 VLMEVALKIT 和 lmms-eval 来测试模型。请看 Evaluation.md 了解更多细节.
引用
如果你认为我们的工作有所帮助,请你通过下面的 BibTeX 来引用我们的工作:
致谢