统一的RL训练框架,用于提升VLM的感知和推理能力
Magistral 是 Mistral 提出的一个 reasoning model 系列,主要针对 math 和 code 两个 domain
Hugging Face 在 2025 年 7 月 8 号发布了 SmolLM3, 一个 3B 的,128K 上下文,支持 6 种语言,支持 dual mode reasoning 的小语言模型。
智谱 AI 在 25 年 7 月份发布了 GLM-4.1V-Thinking, 一个 9B 的多模态大语言模型,其在多个 benchmark 上达到了相同大小 MLLM 的 SOTA