Skip to main contentQwen 在 2025 年系统性研究了 attention 中的 gating 机制,发现通过在 attention 中引入非线性与稀疏性,可以以极低成本显著提升模型的表达能力、训练稳定性以及长上下文表现。 字节在 26 年 1 月提出了 NextFlow, 一个基于 decoder-only autoregressive transformer 架构的统一理解与生成多模态,验证了纯自回归架构在统一模型中的有效性。 OpenRouter在25年12月发布了一份基于100T token调用数据的统计报告,该报告从模型,任务,用户多角度分析了当前AI模型的使用情况 本文中,我们将介绍如何计算 LLM 在训练和推理过程中的内存需求以及简要介绍对应的优化方法。 本文汇总了NVIDIA GPU 系列的技术规格以及关键改进