Skip to main contentDeepSeek 在 25 年 10 月发布了 DeepSeek-V3.2, 模型强调了稀疏注意力,scaling RL 以及 agentic task synthesis. Gemini 3.0 是是 Google 新一代最强模型,model card 介绍了 Gemini 3.0 系列的评估结果以及基本能力 本文介绍了 softmax 函数的性质,实现和应用,方便后续的使用和学习 NoPE 是一个不需要显式位置编码的方法,相关研究说明不使用位置编码我们也可以让模型学习到对应的位置信息以及进行长度外推。 meta 等提出了 ALiBi, 一个通过 linear biases 来实现位置编码的方法来提高 LLM 在推理阶段的外推能力。