Notes on AFM2025

Apple 在 7 月份发布了 AFM 技术报告,包括两个多语种多模态大模型,一个面向 device, 另一个面向 server

Notes on Kimi-k2

Kimi-k2 是一个总参数为 1T, 激活参数为 32B 的 MoE 大语言模型,模型使用 15.5T token 进行训练,optimizer 使用了 MuonClip. 作者主要关注模型的 agent 能力

Notes on Keye-VL

Keye-VL 是快手在 25 年 7 月份提出的一个 8B 的多模态大模型,其亮点为短视频理解能力。预训练包括 4 个 stage,使用了 600B token,后训练包括 2 个 stage,用于提升模型的 reasoning 和 non-reasoning 能力。

Notes on Seed1.6

Seed 1.6支持 adaptive deep thinking, multimodal understanding,上下文长度为 256K