Skip to main content在强化学习中,KL divergence 常被用作 policy 正则项,但很多不稳定现象并非来自 KL 本身,而是来自其估计方式。本文展示了为什么“无偏的 KL 估计”并不能保证“无偏的 KL 梯度”,并系统分析了不同 KL estimator 在 on-policy 与 off-policy 场景下的行为差异。通过理论推导与实验验证,文章揭示了 KL 作为 loss 与 reward shaping 时的本质区别,并解释了实践中低方差 KL 设计背后的原因 2025年9月,Qwen团队提出了Qwen3-Next,这是一个基于混合注意力机制与MoE架构的大语言模型,旨在显著提升训练与推理效率。该模型通过结合线性注意力与Softmax注意力的优势,在保持高性能的同时实现计算效率的大幅优化。 NVIDIA 在 2020 年提出了 megatron-LM, 一个基于 Tensor Parallelism 的大规模 LLM 训练框架。论文着重介绍了 tensor parallelism Qwen 在 2025 年系统性研究了 attention 中的 gating 机制,发现通过在 attention 中引入非线性与稀疏性,可以以极低成本显著提升模型的表达能力、训练稳定性以及长上下文表现。 字节在 26 年 1 月提出了 NextFlow, 一个基于 decoder-only autoregressive transformer 架构的统一理解与生成多模态,验证了纯自回归架构在统一模型中的有效性。