Notes on Gemini3.0

Gemini 3.0 是是 Google 新一代最强模型,model card 介绍了 Gemini 3.0 系列的评估结果以及基本能力

Author

Published

2026-01-06 10:26:39+0800

Gemini 3.0 是是 Google 新一代最强模型,model card 介绍了 Gemini 3.0 系列的评估结果以及基本能力

Introduction

Gemini 3.0 系列包含

Gemini 3.0 Pro 拥有原生多模态以及 reasoning 能力,可以处理 text, audio, images, video 以及 code repositories 等模态。

modalitiescontext
inputtext, images, audio, video1M
outputtext64K

Gemini 3.0 Flash 与 Gemini 3.0 Pro 基本一致,与 Gemini2.5 相同,应该是采取了蒸馏的方式来实现更高的吞吐速度以及效率

Gemini 3.0 Pro Image 基于 Gemini 3.0 Pro 开发,是一个支持 text, image prompt 的图片生成模型

Method

模型从零开始训练,使用了 MoE 架构和 Transformer 架构

模型使用 TPU 进行训练,训练架构为 JAX 和 ML Pathways.

Experiments

Gemini 3.0 Pro 对比了 Gemini2.5 , Claude Sonnet 4.5 和 GPT-5.1

Performance of Gemini 3.0 Pro

Gemini 3.0 Flash 对比了 Gemini 3.0 Pro, Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Sonnet 4.5, GPT-5.2 和 Grok 4.1 Fast.

Performance of Gemini 3.0 Flash

Gemini 3.0 Pro Image 对比了 Gemini 2.5 Flash Image, GPT-Image 1, Seedream v4, Flux Pro Kontext Max

Performance of Gemini 3.0 Pro Image on existing capabilities
Performance of Gemini 3.0 Pro Image on new capabilities

    介绍

    DeepMind 在 6 月 17 号发布了 Gemini2.x 系列的技术报告,包括

    技术报告简单说了一些技术细节,主要还是模型的评估

    注:Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 将要被 Gemini 2.5 Flash 和 Gemini 2.5 Flash-Lite 取缔,见最新的 blog

    Gemini2.x 系列亮点:

    1. 领先的 coding 和 reasoning 能力
    2. 超过 1M 的上下文,可以处理超过 3 个小时的 video
    3. 集成 long context, multimodal 和 reasoning 三种能力的 agentic workflow 能力

    模型能力对比

    ModelGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash-LiteGemini 2.0 FlashGemini 2.5 FlashGemini 2.5 Pro
    Input ModalitiesText, Image, Video, AudioText, Image, Video, AudioText, Image, Video, AudioText, Image, Video, AudioText, Image, Video, AudioText, Image, Video, Audio
    Input length1M2M1M1M1M1M
    Output modalitiesTextTextTextText, Image*Text, Audio*Text, Audio
    Output length8K8K8K8K64K64K
    ThinkingNoNoNoYesDynamicDynamic
    Supports tool use?NoNoNoYesYesYes
    Knowledge cutoffNovember 2023November 2023June 2024June 2024January 2025January 2025

    模型场景使用对比

    ModelGemini 2.5 Flash-LiteGemini 2.5 FlashGemini 2.5
    ThinkingNoYesYes
    使用场景大规模调用日常使用coding 或者 reasoning 人物
    速度非常快一半
    表现一半非常强
    输入价格0.10.31.25
    输出价格0.42.510

    模型表现

    Gemini_2_5_performance

    模型吞吐量对比

    Gemini_2_5_throughput

    架构,数据与训练

    架构

    Gemini2.5 是一个基于 MoE 的 transformer 架构,支持 text, vision, audio 模态

    Flash 系列使用的是知识蒸馏的方法训练得到的,训练时使用了 kk-sparse 的策略,也就是只保留教师模型输出概率最高的 kk 的词以及对应的概率。作者认为知识蒸馏可以有效提高小模型的能力。

    Infra

    Gemini 系列在 TPUv5p 的架构上进行训练。作者主要提了两点:

    1. Slice-Granularity Elasticity:可以在部分 TPU 出现故障时快速切换并继续训练
    2. Split-Phase SDC detection:通过轻量级重放和校验机制,在几分钟内就能识别出有问题的硬件设备

    Post-training

    post-training 包含 SFT,reward model 以及 RL 的训练。

    在 RL 阶段,奖励来自 verifiable rewards 和 model-based generative rewards

    能力提升

    技术报告提到了几个方面能力的提升

    code pre-training 阶段,加入了大量的代码数据,作者还评估了代码数据的质量 post-training 阶段,作者基于 reasoning 能力构建了一系列的工程任务,来提高模型解决问题的能力

    Factuality 通过 search 和 tool use,reason about output 以及 issue follow-up queries 来验证 factual accuracy

    Multilinguality 预训练时使用了 400 多种语言的语料进行训练

    Audio 训练模型完成 audio generation 任务,生成的时候使用了causal audio representation,训练数据覆盖了 200 多种语言

    Video 通过降低每帧视频对应的 visual token 个数(258-> 66),来让模型可以处理 3 个小时的视频

    Evaluation

    对比了 Claude_4, o3, DeepSeek-R1 和 Grok-1

    Gemini_2_5_evaluation
    Gemini_2_5_video_understanding_performance

    Conclusion

    结论里作者主要提到了两点

    1. 模型能力的提升已经超过了 benchmark 的构建速度和成本
    2. 未来如何设计经济的,覆盖广的,能动态调整难度的 benchmark 是一个关键问题

    技术报告中作者还提到了 Gemini Plays Pokemon 的 case study,作者提到了两点问题:

    1. 作者发模型对视觉信息的依赖程度并不是很高
    2. 尽管模型上下文长度超过了 1M,但是对于这种复杂的 long horizon 问题,当输入超过了 100K token 之后,模型倾向于重复过去的行为,而不是生成新的计划 因此,未来如何解决 multi-turn, long-horizon 的 agentic task 也是一个值得探究的方向。

    Reference