Notes on Aya Vision

Notes on Aya Vision

Aya Vision包含8B, 32B两个size，支持23种语言

Aya Vision是一个多模态大语言模型，包含8B, 32B两个size，支持23种语言。Aya Vision基于 Aya Expanse大语言模型。

模型架构

Aya Vision的模型架构如下图所示

Aya Vision模型架构

Vision Encoder: SigLip2-patch14-384
Vision-text connector: 2 layer MLP
LLM: Aya Expanse 8B/ 32B

训练

训练包含两个stage：

Vision-language alignment: 仅训练vision-text connector，基于image-text pairs进行训练
SFT：训练connector和LLM，基于合成的多语种数据进行训练

多语种数据

为了提高模型的多语种能力，作者先基于English的高质量数据集合成了annotation，然后作者讲这些数据转化为22中语言对应的文本

Model merging

最后为了提高模型在纯文本任务上的表现，作者还使用了model merging的技巧。具体做法就是merge使用的base language model和SFT之后的vision-language model

References

Aya Vision Blog