Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

Huang, Han; Huo, Yuqi; Zhao, Zijia; Lu, Haoyu; Wu, Shu; Wang, Bingning; Liu, Qiang; Chen, Weipeng; Wang, Liang

Computer Science > Computer Vision and Pattern Recognition

arXiv:2410.16166 (cs)

[Submitted on 21 Oct 2024]

Title:Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

Authors:Han Huang, Yuqi Huo, Zijia Zhao, Haoyu Lu, Shu Wu, Bingning Wang, Qiang Liu, Weipeng Chen, Liang Wang

View PDF

Abstract:Multimodal large language models (MLLMs) have made significant strides by integrating visual and textual modalities. A critical factor in training MLLMs is the quality of image-text pairs within multimodal pretraining datasets. However, $\textit {de facto}$ filter-based data quality enhancement paradigms often discard a substantial portion of high-quality image data due to inadequate semantic alignment between images and texts, leading to inefficiencies in data utilization and scalability. In this paper, we propose the Adaptive Image-Text Quality Enhancer (AITQE), a model that dynamically assesses and enhances the quality of image-text pairs. AITQE employs a text rewriting mechanism for low-quality pairs and incorporates a negative sample learning strategy to improve evaluative capabilities by integrating deliberately selected low-quality samples during training. Unlike prior approaches that significantly alter text distributions, our method minimally adjusts text to preserve data volume while enhancing quality. Experimental results demonstrate that AITQE surpasses existing methods on various benchmark, effectively leveraging raw data and scaling efficiently with increasing data volumes. We hope our work will inspire future works. The code and model are available at: this https URL.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL)
Cite as:	arXiv:2410.16166 [cs.CV]
	(or arXiv:2410.16166v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2410.16166

Submission history

From: Han Huang [view email]
[v1] Mon, 21 Oct 2024 16:32:41 UTC (917 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators