Notes on KL divergence

在强化学习中,KL divergence 常被用作 policy 正则项,但很多不稳定现象并非来自 KL 本身,而是来自其估计方式。本文展示了为什么“无偏的 KL 估计”并不能保证“无偏的 KL 梯度”,并系统分析了不同 KL estimator 在 on-policy 与 off-policy 场景下的行为差异。通过理论推导与实验验证,文章揭示了 KL 作为 loss 与 reward shaping 时的本质区别,并解释了实践中低方差 KL 设计背后的原因

Notes on Qwen3-Next

2025年9月,Qwen团队提出了Qwen3-Next,这是一个基于混合注意力机制与MoE架构的大语言模型,旨在显著提升训练与推理效率。该模型通过结合线性注意力与Softmax注意力的优势,在保持高性能的同时实现计算效率的大幅优化。

megatron-lm

NVIDIA 在 2020 年提出了 megatron-LM, 一个基于 Tensor Parallelism 的大规模 LLM 训练框架。论文着重介绍了 tensor parallelism

Notes on Gated Attention

Qwen 在 2025 年系统性研究了 attention 中的 gating 机制,发现通过在 attention 中引入非线性与稀疏性,可以以极低成本显著提升模型的表达能力、训练稳定性以及长上下文表现。