Overview of Nemotron series

Author

Updated

Jun, 18, 2026

Category

Introduction

Nemotron 3 Nano

Nvidia 在 25 年 12 月发布了 Nemotron 3 Nano (NVIDIA et al., 2025)

  1. NVIDIA, :, Blakeman, A., Grattafiori, A., Basant, A., Gupta, A., Khattar, A., Renduchintala, A., Vavre, A., Shukla, A., Bercovich, A., Ficek, A., Shaposhnikov, A., Kondratenko, A., Bukharin, A., Milesi, A., Taghibakhshi, A., Liu, A., Barton, A., … Yan, Z. (2025). Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning. https://arxiv.org/abs/2512.20848

Nemotron-cascade

NVIDIA 在 25 年 12 月提出了 cascaded RL 以及训练得到的模型 Nemotron-Cascade (Wang et al., 2026), 模型包含 instruct 以及 thinking 两种模式。 cascaded RL 使用了 sequential, domain-wise RL 来提高模型的数学和代码能力。

Introduction

现有的 RLHF 主要分为了 RLHF 和 RLVR 两种范式,前者用于提高模型的 alignment 能力,后者用于提高模型的 reasoning 能力。

但是提高模型的 reasoning 能力涉及到多个 domain, 每个 domain 的 verification 方式不一致,比如 math reasoning 依赖 symbolic rule-based verification, code generation 依赖于 execution based verification, alignment 依赖与 reward model based score.

AceReason-nemotron 中,作者提出了使用 Cascade RL 的方式来提高模型的数学和代码能力,作者发现这样做有以下优势:

  1. rule-based math verification 比 execution based verification 效率更高,可以在训练早期提高模型训练效率
  2. math reasoning 能力可以泛化到其他 domian 上
  3. math RL 之后,我们可以通过 code RL 提高模型的 code 能力而不损失模型的 math reasoning 表现

因此,在本文中,作者基于 Qwem3 (Yang et al., 2025) 的 Qwen3-8B-Base 以及 Qwen3-14B-Base 构建了一个开源的 post training recipe.

本文贡献如下:

SFT

SFT 包含了两个阶段,分别覆盖 reasoning 相关 domain 和通用 domain.

对于 chat template, 作者使用了 ChatML 格式,然后使用了 /think/no_think 两个 flag 来控制。作者通过实验发现,Qwen3 的 explicit flags 效果更好,并且可以覆盖所有场景,因此,作者舍弃了 <think></think> block. 作者还是用了 <tools></tools>, <tool_call></tool_call> tags 来表明可用工具以及模型的工具调用

stage 1 数据构造

stage 2 数据构造

训练的超参数如下所示

RL

作者构造数据时,确保 SFT 和 RL 不会出现重复的 prompts.

作者先进行 RLHF, 再进行 RLVR, 因为作者认为 RLHF 可以有效提高输出质量

作者将 RL 分为了 RLHF, instruction following RL, Math RL, Code RL, 以及 SWE RL 5 个阶段

作者认为 cascaded RL 没有灾难性遗忘的原因:

训练使用了 GRPO 算法,使用了 verl 框架,基于 AceReason-nemotron.

Experiments

作者对比了 Qwen3 提出的 Qwen3-8B,, Qwen3-14B, Nemotron-Nano 9B-v2, DeepSeek-R1, Gemini2.5 Flash Thinking, 表现如下表所示

  1. Wang, B., Lee, C., Lee, N., Lin, S.-C., Dai, W., Chen, Y., Chen, Y., Yang, Z., Liu, Z., Shoeybi, M., Catanzaro, B., & Ping, W. (2026). Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models. https://arxiv.org/abs/2512.13607
  2. Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., Zheng, C., Liu, D., Zhou, F., Huang, F., Hu, F., Ge, H., Wei, H., Lin, H., Tang, J., … Qiu, Z. (2025). Qwen3 Technical Report. https://arxiv.org/abs/2505.09388