Overview of Nemotron series

Introduction

Nemotron-cascade 2
Nemotron-cascade
Nemotron-4
Nemotron Nano
Nemotron 3 Nano
AceReason-nemotron

Nemotron 3 Nano

Nvidia 在 25 年 12 月发布了 Nemotron 3 Nano (NVIDIA et al., 2025)

Infra

NVIDIA, :, Blakeman, A., Grattafiori, A., Basant, A., Gupta, A., Khattar, A., Renduchintala, A., Vavre, A., Shukla, A., Bercovich, A., Ficek, A., Shaposhnikov, A., Kondratenko, A., Bukharin, A., Milesi, A., Taghibakhshi, A., Liu, A., Barton, A., … Yan, Z. (2025). Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning. https://arxiv.org/abs/2512.20848

Nemotron-cascade

NVIDIA 在 25 年 12 月提出了 cascaded RL 以及训练得到的模型 Nemotron-Cascade (Wang et al., 2026), 模型包含 instruct 以及 thinking 两种模式。 cascaded RL 使用了 sequential, domain-wise RL 来提高模型的数学和代码能力。

现有的 RLHF 主要分为了 RLHF 和 RLVR 两种范式，前者用于提高模型的 alignment 能力，后者用于提高模型的 reasoning 能力。

但是提高模型的 reasoning 能力涉及到多个 domain, 每个 domain 的 verification 方式不一致，比如 math reasoning 依赖 symbolic rule-based verification, code generation 依赖于 execution based verification, alignment 依赖与 reward model based score.

在 AceReason-nemotron 中，作者提出了使用 Cascade RL 的方式来提高模型的数学和代码能力，作者发现这样做有以下优势：

rule-based math verification 比 execution based verification 效率更高，可以在训练早期提高模型训练效率
math reasoning 能力可以泛化到其他 domain 上
math RL 之后，我们可以通过 code RL 提高模型的 code 能力而不损失模型的 math reasoning 表现

因此，在本文中，作者基于 Qwen3 (Yang et al., 2025) 的 Qwen3-8B-Base 以及 Qwen3-14B-Base 构建了一个开源的 post training recipe.

本文贡献如下：

在算法上，作者提出了 cascaded RL 框架，扩展了 RL 的 domain. Cascaded RL 的优势有：
- RLHF 可以有效提高模型输出的质量
- 后续 domain 的 RL 训练不会对前序 RL 产生影响
- 可以针对不同的 domain RL 分别调整超参数
作者通过优化数据构建了 Nemotron-Cascade-8B unified reasoning model.

Data

SFT

stage 1 数据构造

general domain 数据包含 2.8M samples, 3.2B token, knowledge 相关数据有 1.2M samples, 1.5B tokens. 作者对数据进行了处理和增广。
reasoning domain 数据包含了 AceReason-nemotron 中的数据，包含 AceMath, NuminaMath, OpenMathReasoning 这些数据集，作者收集了 353K prompts, 通过多次采样得到 2.77M samples.
code reasoning data 来源于 AceReason-nemotron, 包含 TACO, APPs, OpenCoder-Stage-2, OpenCodeReasoning. 数据包含 172K prompts, 1.42M samples, context length 16K
science reasoning data, 基于 S1K 和 LLaMA-Nemotron, 包含 226K prompts, 289K samples

stage 2 数据构造

reasoning domain 数据，作者使用了 DeepSeek-R1-0528 来生成回答，得到 163k prompts, 1.88M samples. context length 32K
code reasoning data, 作者使用了 OpenCodeReasoning 和 OpenCoder-Stage-2 数据，使用 DeepSeek-R1-0528 来生成回答，得到 79K prompts, 1.39M samples, context length 32K
science reasoning data, 226K samples, 345K samples. upsample by 2.
tool calling data, 基于 LLaMA-Nemotron, 使用 Qwen3-235B-A22B 来生成回答，最终包含 320K 对话，1.41M turns.
SWE, 基于 SWE-Bench-Train, SWE-Fixer-Train, SWE-reBench, SWE-Smith. task 包含 localization, repair, test code generation 三个任务。最终 127K repair 数据，92K localization 数据，31K test case generation 数据，upsample by 2.

RLHF

reward model 训练数据包括 82k preference pairs: HelpSteer2 (10k), HelpSteer3 (36K)

数据合成：使用 stronger LLM 生成 bad response, weaker LLM 生成 good responses.

RLHF 训练数据与 reward model 一致，并过滤掉 code 和 math reasoning prompts.

IF RL

数据包括

LLaMA-Nemotron, 包括 40k samples,
LMSYS-Chat-1M: 40K samples
IF-RLVR training data
Tulu3-SFT

domain-RL

math: 从 AceReason-Math 数据集中进行优化过滤得到 14k samples
code: AceReason-Nemotron coding, 9.8k samples
SWE: 数据与 SFT 阶段相同

Training

SFT

SFT 包含了两个阶段，分别覆盖 reasoning domain 和 general domain.

stage 1: 16K, 包含 general domain 任务和 math, code 和 science domain 数据，general domain 数据每个 prompt 包含 thinking 和 non-thinking 两种 response, 训练 1 epoch
stage 2: 32K, 加入了新的 math, science, code 数据，进一步提高模型的 tool use, software engineering skills, 训练 1 epoch

对于 chat template, 作者使用了 ChatML 格式，然后使用了 /think 和 /no_think 两个 flag 来控制是否进行思考。作者通过实验发现，Qwen3 的 explicit flags 效果更好，并且可以覆盖所有场景，因此，作者舍弃了 <think></think> block. 作者还用了 <tools></tools>, <tool_call></tool_call> tags 来表明可用工具以及模型的工具调用

训练的超参数如下所示

RLHF

reward model 训练数据集为 $\mathcal{D}=\{(x,y^+,y^-)\}$ ,

P(y^+\succ y^-\mid x) = \frac{\exp(r_{\theta}(x,y^+))}{\exp(r_{\theta}(x,y^+))+\exp(r_{\theta}(x,y^-))}

损失函数为

\mathcal{L}(\theta) = \mathbb{E}_{(x,y^+,y^-)\sim \mathcal{D}}\left[\log P(y^+\succ y^-\mid x)\right]

setup: batch size 256, lr $2e-6$ , 1 epoch.

RLHF

基于 GRPO 进行训练，发现模型在下游任务上，除了 instruction following 之外，都有提升，作者认为这是由于 RLHF 要求模型输出较短的，符合人类偏好的回答，而 IF 则严格要求模型遵循输出格式。

IF-RL

两个阶段：第一个阶段关注 IFEval 相关数据，第二个阶段关注 IF-Bench-Train 相关数据。

unified models: apply IF-RL only in the non-thinking mode
thinking model: IF-RL with combined reward function

domain-RL

math-RL 训练包括三阶段：

24k, compression: 压缩 SFT checkpoint 输出长度
32k, extension: 扩展模型的输出长度和表现
40k, long reasoning stage: 提升模型解决复杂问题的难度

Code RL 训练使用了 async reward computation.

SWE RL reward function 定义为 generated patch $\hat{p}$ 和 ground truth $p^*$ 之间的相似性

r(\hat{p},p^*) = \begin{cases} 1,&\text{ if } s_{lex}(\hat{p},p^*)=1\\ 0,&\text{ if } \hat{p}\text{ is identical to the original code snippet}\\ -1, &\text{ if } \hat{p}\text{ cannot be parsed}\\ s_{sem}(\hat{p},p^*), &\text{ otherwise} \end{cases}

其中 $s_{lex}(\hat{p},p^*)$ 是基于 Unidiff library 的 lexical similarity, $s_{sem}(\hat{p},p^*)$ 是 LLM 给出的语义相似度。

训练包括 2 个阶段, 第一阶段将输入初始化为 16k 作为 warmup, 第二阶段将输入扩展到 24k.

Experiments

作者对比了 Qwen3 提出的 Qwen3-8B, Qwen3-14B, 表现如下表所示

Benchmark	Qwen3 8B	Qwen3 14B	Nemotron Cascade-8B	Namotron Cascade 14B-Thinking
MMLU	83.0	84.9	83.7	85.1
MMLU-Pro	75.1	77.6	75.7	77.0
GPQA-Dimond	62.0	64.0	66.5	69.6
ArenaHard	85.8	91.7	87.9	89.5
IFEval	85.0	85.4	90.2	81.9
IFBench	34.4	33.7	40.8	41.7
AIME 2024	76.0	79.3	89.5	89.7
AIME 2025	67.3	70/4	80.1	83.3
LiveCodeBench v5	61.2	65.2	74.3	77.5
SWE-verified	20.5	27.4	37.2	43.1

Analysis

reward model:

benchmark score 低的表现一定差，但是高也不一定好
小模型更关注输出的风格而不是质量
使用 pre-trained reward model 和基于 SFT model 表现差不多
reasoning model 比 instruction model 表现差

RLHF

RLHF 可以降低模型输出重复的概率和 verbosity
RLHF 可以提高模型在 math 和 code benchmark 上的表现

作者认为 cascaded RL 没有灾难性遗忘的原因：

Wang, B., Lee, C., Lee, N., Lin, S.-C., Dai, W., Chen, Y., Chen, Y., Yang, Z., Liu, Z., Shoeybi, M., Catanzaro, B., & Ping, W. (2026). Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models. https://arxiv.org/abs/2512.13607
Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., Zheng, C., Liu, D., Zhou, F., Huang, F., Hu, F., Ge, H., Wei, H., Lin, H., Tang, J., … Qiu, Z. (2025). Qwen3 Technical Report. https://arxiv.org/abs/2505.09388

Overview of Nemotron series

Author

Updated

Category

Introduction

Nemotron 3 Nano

Data

Training

Post-training

Infra

Nemotron-cascade

Data

SFT

RLHF

IF RL

domain-RL

Training

SFT

RLHF

RLHF

IF-RL

domain-RL

Experiments

Analysis