Ovis2.5 MLLM with stronger perception and reasoning capability

作者提出了 Ovis2.5, 一个基于 Ovis 改进的多模态大模型系列，包括 2B 和 9B 两个 size，Ovis2.5 主要强调了支持不同分辨率图片输入以及深度思考这两个 feature

Introduction

作者首先回顾了 Ovis, Ovis 主要是解决 text embedding 以及 visual embedding 对齐程度比较低的问题。

接下来，作者介绍了以下 Ovis 的两个问题：

为了解决这两个问题，作者提出了 Ovis 2.5, Ovis 主要做出了两点改进：

最终 Ovis2.5 主要有以下 feature

Ovis2.5 的架构如下所示

Architecture of Ovis2.5

Ovis 包括三个模块：

作者在架构上进行了如下改进：

模型训练包括 pre-training 和 post-training 两个大的 stage, 其中 pre-training 又包含 3 个小的 stage, post-training 包含 2 个 stage. 训练过程如下所示

Training Process of Ovis2.5

pre-training 阶段的数据包括 COYO, Laion, Wukong, DataComp, SAM 等。作者介绍了几个部分的数据：

训练时，

VET pretraining: 训练 VET, 作者基于 SigLIP 来初始模型的参数，然后仅训练最后一层 ViT layer, visual head 以及 VET, 图片精度为 448-896. 作者采用了动态 position embedding
Multimodal pretraining: 这阶段全量微调所有参数，主要目的是使用对话格式的数据。图片精度为 448-1792
multimodal instruction tuning: 这阶段训练所有参数，主要提高模型跟随多模态指令的能力

post-training 包括 DPO 和 GRPO 两个阶段。

infra 方面，作者主要强调了 data packing 以及多种并行策略融合。

作者在本文中提出了 Ovis2.5, 一个基于 Ovis 架构的多模态大模型，作者主要强调了模型的动态图片输入处理能力以及深度思考能力。

作者提出了几个未来的方向：