Overview of Keye-VL series

Author

Updated

Jun, 18, 2026

Category

Introduction

Keye-VL 系列是快手 Kwai 团队提出的一个多模态大模型系列,这个系列主要强调了模型的视频理解能力。

模型架构变化如下

ModelKeye-VLKeye-VL 1.5Keye-VL 2.0
Parameters8B8B30B-A3B
ViTSigLIP-400M-384-14samesame
MLPPatch Mergersamesame
LLMQwen3-8BsameQwen3-A30B-A3B-Thinking-2507

模型表现如下图所示

Performance of Keye-VL series
Performance of Keye-VL series on video benchmarks
Takeaway
  1. 一开始的短视频理解是一个很实际的需求,是一个小而精的赛道
  2. 从 2.0 开始,感觉是啥都想做,还要对比 Qwen3.5, 我认为比较难达到相同级别的表现
  3. 总的来说,如果啥都想做,可能啥都没有

Keye-VL

Keye-VL (Team et al., 2025) 是快手在 25 年 7 月份提出的一个 8B 的多模态大模型,其亮点为短视频理解能力。

作者强调理解短视频仍然是一个很难的任务,特别是要求模型基于 video 和 audio 来理解视频。 因此,在本文中,作者提出了 Kwai Keye-VL,一个 8B 的多模态大模型,主要用于短视频理解任务。

Architecture

Keye-VL 是一个标准的 ViT-MLP-LLM 的架构,其中

作者针对 ViT 和 visual encoding 分别做了如下改进

作者实现了 native resolution ViT,来处理不同分辨率的图片。 具体做法为

  1. 基于 SigLIP-400M-384-14 (Zhai et al., 2023) 来初始化 ViT (Dosovitskiy et al., 2021)
  2. 采用 interpolation 来处理 ViT 的 position encoding 用于支持不同的图片输入。
  3. 使用 2D RoPE 来进一步 attention 对于空间位置信息的利用。
  4. 使用 NaViT (Dehghani et al., 2023) 的 packing 技巧来继续预训练 ViT.

在 ViT 预训练的过程中,作者使用了 SigLIP loss, 用 500B 的 token 进行 continue pre-training.

Visual Encoding

为了提升模型理解图片和视频的能力,作者针对图片和视频也进行了处理。

  1. 对于图片,作者将最大 token 个数设置为 16384
  2. 对于视频,作者将每帧的 token 数限制在 [128,768][128,768], 每个视频的最大 token 个数设置为 24576
  3. 对于提取的 frames, 作者重新计算了 FPS, 然后在 3D RoPE 中让时间维度与真实时间严格对齐。

Data

Pretraining Data

预训练数据一共包括 600B token,覆盖了 6 个类别:

数据清洗:

  1. 使用 CLIP 对数据进行打分,然后过滤掉低质量的数据
  2. 使用开源的 MLLM 作为 discriminator 来选择高质量的数据
  3. 去重

Training

Pre-training

预训练包括 4 个 stage:

作者发现,预训练后的模型在下游任务上的表现对训练数据配比非常敏感。 为了解决这个问题,在最后一个训练阶段,作者使用了一个 merging 的技巧,来保持模型的能力。

Post-training

post-training 阶段一共包含了 2 个 step, 5 个 stage:

Discussion

作者讨论了两点关键发现:

  1. reasoning 和 non-reasoning 的数据可以互相促进彼此的表现,这与 ERNIE 4.5 的发现一致。
  2. 作者认为通过 mix-mode 的训练,模型在简单和复杂任务上的表现都可以提升,因此作者使用了混合数据来进行训练,结果发现效果很好。

作者认为 keye-VL 仍然存在以下问题

  1. 并没有优化 video encoder 或者是改进 video encoding 的策略
  2. Keye-VL 的视觉感知能力有进一步的提升空间,其 “reasoning with image” 能力依然落后于领先的 reasoning model
  3. 使用一个额外的 MLLM 作为 reward model 会极大消耗算力,如何构建一个更可靠更高效的 reward model 需要进一步探索。
  1. Bai, S., Chen, K., Liu, X., Wang, J., Ge, W., Song, S., Dang, K., Wang, P., Wang, S., Tang, J., Zhong, H., Zhu, Y., Yang, M., Li, Z., Wan, J., Wang, P., Ding, W., Fu, Z., Xu, Y., … Lin, J. (2025). Qwen2.5-VL Technical Report. https://arxiv.org/abs/2502.13923
  2. Dehghani, M., Mustafa, B., Djolonga, J., Heek, J., Minderer, M., Caron, M., Steiner, A., Puigcerver, J., Geirhos, R., Alabdulmohsin, I., Oliver, A., Padlewski, P., Gritsenko, A., Lučić, M., & Houlsby, N. (2023). Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution. https://arxiv.org/abs/2307.06304
  3. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations. https://openreview.net/forum?id=YicbFdNTTy
  4. Meng, F., Du, L., Liu, Z., Zhou, Z., Lu, Q., Fu, D., Han, T., Shi, B., Wang, W., He, J., Zhang, K., Luo, P., Qiao, Y., Zhang, Q., & Shao, W. (2025). MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning. https://arxiv.org/abs/2503.07365
  5. Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., Zhang, H., Zhang, M., Li, Y. K., Wu, Y., & Guo, D. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. https://arxiv.org/abs/2402.03300
  6. Shazeer, N. (2020). GLU Variants Improve Transformer. https://arxiv.org/abs/2002.05202
  7. Team, K. K., Yang, B., Wen, B., Liu, C., Chu, C., Song, C., Rao, C., Yi, C., Li, D., Zang, D., Yang, F., Zhou, G., Peng, H., Ding, H., Huang, J., Cao, J., Chen, J., Hua, J., Ouyang, J., … Zhang, Z. (2025). Kwai Keye-VL Technical Report. https://arxiv.org/abs/2507.01949
  8. Wang, W., Chen, Z., Wang, W., Cao, Y., Liu, Y., Gao, Z., Zhu, J., Zhu, X., Lu, L., Qiao, Y., & Dai, J. (2025a). Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization. https://arxiv.org/abs/2411.10442 back: 1, 2
  9. Wang, W., Chen, Z., Wang, W., Cao, Y., Liu, Y., Gao, Z., Zhu, J., Zhu, X., Lu, L., Qiao, Y., & Dai, J. (2025b). Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization. https://arxiv.org/abs/2411.10442
  10. Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., Zheng, C., Liu, D., Zhou, F., Huang, F., Hu, F., Ge, H., Wei, H., Lin, H., Tang, J., … Qiu, Z. (2025). Qwen3 Technical Report. https://arxiv.org/abs/2505.09388
  11. Zhai, X., Mustafa, B., Kolesnikov, A., & Beyer, L. (2023). Sigmoid Loss for Language Image Pre-Training. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), 11941–11952. 10.1109/ICCV51070.2023.01100 back: 1, 2

Keye-VL 1.5

基于 Keye-VL, 快手在 25年9月 提出了 Keye-VL 1.5 (Yang et al., 2025), Keye-VL-1.5 相比于 Keye-VL 主要做了三点改进:

  1. 在架构上,使用了 Slow-Fast Video Encoding
  2. 在预训练阶段,使用多个 stage 来提升模型的长上下文能力
  3. 在 post-training 阶段,进一步提高模型的 reasoning 能力和 alignment 表现

Architecture

Keye-VL 1.5 的架构与 Keye-VL 一致, Keye-VL 1.5 主要做出的改进点为针对视频的 encoding 方式。

之前的工作如 Qwen2.5-VL 使用 3D convolution 来 merge 相邻的两帧,Seed1.5-VL (Guo et al., 2025) 采用了 Dynamic Frame-Resolution Sampling 技巧,来根据 budget 和处理的任务来动态调整采样率 (frame) 和每一帧的图片精度 (resolution).

作者认为这些方法比较难进行泛化,因而提出了 SlowFast video encoding strategy:

  1. Slow Pathway: 空间信息丰富(high resolution),时间信息简略 (low number of frames)
  2. Fast Pathway: 时间信息丰富(high number of frames),空间信息简略 (low resolution)

为了区分 slow/fast frames, 作者提出了一个基于 patch similarity 的 metric:

  1. 第一帧始终定义为 slow frame
  2. 接下来的每一帧,如果其和上一帧的相似度超过 95%95\%, 则定义为 fast frame; 反之则定义为 slow frame.

得到 slow/fast frames 之后,作者将 fast-frame 的 token budget 限制为 slow frame token budget 的 30%30\% 来平衡时间信息以及空间信息。 接下来,作者使用二分搜索来决定 slow frame 的 token budget. 为了区分 slow frame 和 fast frame 的 token, 作者使用了特殊的 token 来进行分离。

最终的处理结果如下图所示

SlowFast Video Encoding

Data

Pre-training

预训练的数据和 Keye-VL 基本一致,我们主要介绍改进的点

对于 Image caption 数据,作者认为这批数据可能会损害模型的指令跟随和 reasoning 能力,因此作者对数据进行了增广,主要是调整了数据的格式:

  1. QA, 数据格式为 <image, caption, [eos], question, answer>
  2. reverse QA, 数据格式为 <image, question, answer, [eos], caption>
  3. instruction following: 随机给一批数据作为输入,然后让模型基于特定 image 输出 caption

OCR 数据在 Keye-VL 的基础上加入了两点:

  1. Structured Document and Code Understanding: 基于 markdown 和 HTML 等数据来获取 code OCR 数据
  2. Instruction Following OCR: 基于特定指令进行 OCR

对于 grounding 数据,作者进一步加入了 temporal grounding 数据,作者首先使用 TEMPURA 来将短视频分割成若干个 video clips. 然后作者使用 SOTA MLLM 来过滤数据,最后作者基于 Gemini2.5 来生成对应的 QA.

Post-training

SFT 阶段使用了 7.5M 多模态 QA 样本进行训练。

MPO 阶段的数据相比 Keye-VL 有所减少,包含:

  1. 250K 开源样本
  2. 150K 纯文本数据
  3. 26K 人类标注数据

训练时数据分布为 video: images: text = 24:50:26.

作者构建了一个 5 部的自动化数据生成 pipeline, 步骤如下:

  1. Multi-Source Data Collection and Enhancement:收集数据
  2. Multi-Path Reasoning Generation with Confidence Quantification: 基于 confidence 来挑选数据
  3. Comprehensive Two-Level Quality Assessment: 基于答案和过程的正确性来提高数据质量
  4. Human-in-the-Loop Quality Enhancement: 对于中等质量的数据请人类进一步进行标注
  5. Dynamic Quality Scoring and Data Utilization Strategy: 对数据进行打分,高质量数据进行上采样

alignment 数据包括:

  1. instruction following:25 类硬约束,20 类软约束,数据包括 17K 多模态数据和 23K 纯文本数据,奖励包括 rule-based reward 和 generative reward
  2. reasoning: 12K 数学和逻辑推理数据
  3. RAG: 提高模型的搜索能力,作者使用 GSPO 算法进行训练

Training

Pre-training

预训练和 Keye-VL 一样,包含 3 个 stage.

  1. 前两个 stage,作者将模型的上下文限制为 8K, 使用了 Zero-2 (Rajbhandari et al., 2020) 来减少内存开销。
  2. 在 stage 3, 作者将模型的上下文从 8K 扩展到 128K, 对应的 base frequency 从 1M 提升到 8M. 训练数据包括长视频,长文本和大规模图片。作者将优化策略调整为 Zero-1, 并使用 CP (Liu et al., 2024) 和 PP (Huang et al., 2019) 来支持 long-context 的训练。

Post-training

Post-training 包含以下阶段:

  1. SFT+MPO: SFT 阶段的数据包括 R1-Reward 和 MMPR, 训练之后作者还是用比较短的 good response 来避免产生较长的回答, 7.5M multimodal QA samples.
  2. reward model training: 使用 SFT 和 RL 两个阶段进行训练
  3. LongCoT code-start: 初步激活模型的 reasoning 能力
  4. General RL:
  5. RLVR: 使用了 GSPO 算法来进行训练,在训练过程中,作者采取了 progressive hint sampling 方式,也就是提供不同程度的 hint 来提高模型的训练效率。为了进一步提高模型的表现,作者采用了一个和 Seed1.5-VL 一样的迭代式训练策略,即反复进行 SFT 和 RL 来降低训练成本,提高训练效率。
  6. alignment RL: 提高模型的 instruction following, format adherence, preference alignment 表现

Experiments

消融实验结果如下所示:

  1. 提高 SFT 训练数据可以有效提高模型在数学推理,逻辑推理和 OCR 任务上的表现
  2. MPO 可以在 SFT 基础上进一步提高模型的表现
  3. Long CoT cold start 可以有效提高模型的 reasoning 表现
  4. alignment RL 可以在保持模型 reasoning 能力的同时提高模型的指令跟随能力
  5. 通过 rejection sampling,模型的表现有了进一步的提升

model merging 对模型表现的影响:

  1. model merging 可以有效提高模型在 special domain 上的表现,并且还可以维持模型的通用能力
  2. expert model 训练时间过长会影响最终 merge model 的表现
  3. expert mode 训练的学习率应该要设置比较小
  1. Guo, D., Wu, F., Zhu, F., Leng, F., Shi, G., Chen, H., Fan, H., Wang, J., Jiang, J., Wang, J., Chen, J., Huang, J., Lei, K., Yuan, L., Luo, L., Liu, P., Ye, Q., Qian, R., Yan, S., … Song, Z. (2025). Seed1.5-VL Technical Report. https://arxiv.org/abs/2505.07062
  2. Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, M. X., Chen, D., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019). GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism. https://arxiv.org/abs/1811.06965
  3. Liu, H., Zaharia, M., & Abbeel, P. (2024). RingAttention with Blockwise Transformers for Near-Infinite Context. The Twelfth International Conference on Learning Representations. https://openreview.net/forum?id=WsRHpHH4s0
  4. Rajbhandari, S., Rasley, J., Ruwase, O., & He, Y. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. https://arxiv.org/abs/1910.02054
  5. Yang, B., Wen, B., Ding, B., Liu, C., Chu, C., Song, C., Rao, C., Yi, C., Li, D., Zang, D., Yang, F., Zhou, G., Zhang, G., Shen, H., Peng, H., Ding, H., Wang, H., Fan, H., Ju, H., … Zhang, Z. (2025). Kwai Keye-VL 1.5 Technical Report. https://arxiv.org/abs/2509.01563

Keye-VL 2.0

快手在 26 年 6月提出了 Keye-VL 2.0 (Team et al., 2026), 一个 30B-A3B 的 开源 MoE 多模态大模型,模型亮点为 long-video understanding 以及 agentic intelligence.

Keye-VL 2.0 进行了如下改进:

  1. 架构上,使用了 DSA [@DSA] 来降低 KV cache 占用和支持 256K 的上下文
  2. 训练上,作者提出了 Cross-Modal Multi-teacher On policy distillation (MOPD) 和 Context-RL, Video RL 避免灾难性遗忘。

Architecture

架构如下:

Data

post-training: 500B tokens, 40% pure text data, 包括 Text NLP, Video, Perception, Reasoning, Agent 和 Long context data

Visual encoding

对不同的数据使用了相同的处理方式:

  1. image: 按照动态分辨率图片进行处理
  2. video: 加入 explicit timestamp, 作者认为这种 frame-as-image 的方式可以简化视觉信息处理方式,作者根据不同的视频来动态分配最大 token 数量

Training

Pre-training

Pre-training 包含 4 个 stage:

  1. 仅训练 projector
  2. 全量微调,32K 上下文,1T tokens
  3. 全量微调,64K 上下文,加入 OCR, VQA 等下游任务数据,2T tokens
  4. 全量微调,256K 上下文, long video, multi-page

Post-training

包括以下几个阶段:

  1. SFT: 使用了通用的指令跟随数据和 reasoning CoT 数据
  2. RL: 训练不同的专家模型,算法为 GSPO (Zheng et al., 2025)
    • Synthetic-Data RL: 基于图片编辑数据完成找不同
    • General RL: reward 包括 format reward, outcome reward, process reward 和 ContextRL reward
    • Specialized RL: 训练 Grounding, spatial understanding, math reasoning, counting 和 OCR expert
    • Video RL: 31K video samples
    • Agentic RL: Coding RL, Tool use RL, Search RL
  3. MOPD: 使用 13 个 teacher 来进行 MOPD.
MOPD

给定 prompt xix_i, 学生模型 πθ\pi_{\theta} on policy 输出

yi=(yi,1,,yi,T)πθ(xi)y_i = (y_{i,1},\dots,y_{i,T}) \sim \pi_{\theta}(\cdot\mid x_i)

对于状态 si,t=(xi,yi,<t)s_{i,t}=(x_i,y_{i,<t}), 选择的 teacher 提供 token-level feedback, 作者使用了 segmented prompt-response re-tokenization (SPRR) 来对齐选择的教师模型 πTri\pi_T^{r_i} 和学生模型的概率。 作者使用了 overlap set 来提供更稳健的 feedback (Li et al., 2026), 首先,作者定义 topK overlap set 为

Ωi,t=TopK(πTrisi,t)topK(πθ(si,t))\Omega_{i,t}=\mathrm{TopK}(\pi_T^{r_i}(\cdot\mid s_{i,t})\cap \mathrm{topK}(\pi_{\theta}(\cdot\mid s_{i,t}))

Ωi,t\Omega_{i,t} 不为空时, raw advantage 定义为

Ai,t={vΩi,tπˉθ(vsi,t)[logπTri(vsi,t)logπθ(vsi,t)],if Ωi,t0,otherwiseA_{i,t} = \begin{cases} \sum_{v\in\Omega_{i,t}}\bar{\pi}_{\theta}(v\mid s_{i,t})\left[\log\pi_T^{r_i}(v\mid s_{i,t})-\log\pi_{\theta}(v\mid s_{i,t})\right],&\text{if }\Omega_{i,t}\neq\emptyset\\ 0,&\text{otherwise} \end{cases}

其中

πˉθ(vsi,t)=πθ(vsi,t)uΩi,tπθ(usi,t)\bar{\pi}_{\theta}(v\mid s_{i,t}) = \frac{\pi_{\theta}(v\mid s_{i,t})}{\sum_{u\in\Omega_{i,t}}\pi_{\theta}(u\mid s_{i,t})}

通过在 overlap 上进行蒸馏,我们可以避免计算非常低概率 token 的概率值。 最后,学生模型的训练目标为

LMOPD=E[1MitMiA^i,tlogπθ(yi,txy,yi,<t)]\mathcal{L}_{\mathrm{MOPD}} = -\mathbb{E}\left[\frac{1}{|\mathcal{M}_i|}\sum_{t\in\mathcal{M}_i}\hat{A}_{i,t}\log \pi_\theta(y_{i,t}\mid x_y,y_{i,<t})\right]

其中 Mi\mathcal{M}_i 是 valid response-token mask.

Infra

在预训练阶段,作者提出了 ExtraIO, 将数据处理作为一个独立的服务,避免数据处理称为训练的瓶颈。

并且,作者对 ViT 和 LLM 使用了不同的 sharding 策略,吧 ViT 模型的计算和显存开销摊分到不同的 GPU 上

针对动态分辨率图片/不同长度视频输入,作者设计了两级动态均衡:

  1. 多模态 token 级: 每个 ViT 处理的数据不按照样本数量分,而是按照视觉 token 的实际总量分,确保 ViT 各个 GPU 工作量一致
  2. LLM 样本级:根据序列的实际长度进行重排和对齐,确保 LLM 各个阶段的 token 总数尽可能一致

对于 DSA, 作者使用了 FlashInfer 和 TileLang 来实现加速。

  1. Li, Y., Zuo, Y., He, B., Zhang, J., Xiao, C., Qian, C., Yu, T., ang Huan-Gao, Yang, W., Liu, Z., & Ding, N. (2026). Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe. https://arxiv.org/abs/2604.13016
  2. Team, K. K., Wen, B., Liu, C., Song, C., Rao, C., Zhang, G., Li, H., Fan, H., Ju, H., Chen, J., Chen, J., Yuan, J., Yang, K., Jiang, K., Gai, K., Zhou, L., Nie, N., Na, S., Zhang, T., … Zhang, R. (2026). Kwai Keye-VL-2.0 Technical Report. https://arxiv.org/abs/2606.10651
  3. Zheng, C., Liu, S., Li, M., Chen, X.-H., Yu, B., Gao, C., Dang, K., Liu, Y., Men, R., Yang, A., Zhou, J., & Lin, J. (2025). Group Sequence Policy Optimization. https://arxiv.org/abs/2507.18071