Data mixture in MLLM

MLLM训练数据配比简单总结

介绍

简单总结一下已有的介绍了训练数据配比的多模态大模型,方便后续使用。 根据之前看的一些论文进行总结,如有缺漏,欢迎批评指正。

相关工作

LLaVA

LLaVA 1.5 SFT数据配比如下:

LLaVA 1.5 SFT data mixture

LLaVA-OneVision

LLaVA OneVision 的数据集统计在表16里,这里总结一下数据配比(总量为3.15M)

CategoryRatio
general vqa36.1
Doc/Chart/Screen20.6
Math/Reasoning20.1
general OCR8.9
text only14.3

Apollo

Apollo 是Meta发布的一个视频理解多模态大模型,其数据集没有开源,论文中给出了其训练数据配比 apollo data mixture

Cambiran-1

Cambiran-1 是纽约大学提出了一个多模态大模型系列,论文发表在了 NeurIPS 2024(Oral) 上,作者给出了 Cambrain-10M 和 Cambrain-7M 两个数据集,Cambrain-7M 的数据分布如下

Cambrain-7M

Idefics

Idefics系列(1/2/3)是huggingface提出的视觉多模态大模型系列,在 Idefics2 中,作者构建了The Cauldron数据集,其数据配比在表14里面。总结如下:

CategoryRatio
general vqa11.02
captioning5.14
OCR17.47
chart/figures14.05
table11.3
reasoning10.32
textbook1.58
difference2.38
screenshot2code0.31
text only26.41

Idefics3 中,作者基于The Cauldron进行了扩展,最终数据集的比例如下:

data mixture of SmolVLM blog

Molmo

Molmo 是Allen AI发布的一个多模态大模型,其SFT数据配比如下

SFT data mixture of Molmo

Eagle 2/2.5

Eagle (1/2/2.5) 是NVLab提出了系列多模态大模型,Eagle 2 给出了 stage 1.5 和 stage 2的数据配比

Eagle 2 data mixture

Eagle 2.5 在 Eagle 2的基础上加入了一些 long context 数据,其数据列表在表11里

SmolVLM

SmolVLM 是huggingface开发的一款轻量化视觉多模态大模型,论文中的数据配比如下:

data mixture of SmolVLM paper

MM1/1.5

MM1 通过实验确定了训练数据的配比:

CategoryRatio
interleaved image-text45
imagetext45
text only10

MM1.5 的SFT数据配比如下: MM1.5 SFT data mixture

InternVL

InternVL2.5 在论文里总结了其使用的pretraining数据和SFT数据,但是没有具体的数据配比,请参考论文的表4和表5

MiniCPM V

MiniCPM V 是 OpenBMB发布的轻量化多模态大模型,其在表1和表2列出了ptraining和SFT数据的具体量级和类别。

参考文献

Built with Hugo
Theme Stack designed by Jimmy