Notes on MX-format

MX format 是一个表示数据的数据格式,在 LLM 中主要用于量化。相比于直接对整个张量进行量化,MX format 可以在更细粒度的层面控制量化,从而提高模型的表现

Notes on flashattention

作者提出了 flashattention, 一个通过降低 multi head attention 内存访问开销来提高 attention 计算效率的方法

Notes on StreamingLLM

作者提出了 StreamingLLM, 一个基于 attention sink 来提高 sliding window attention 在超长上下文场景下表现的方法

Notes on gpt-oss

openAI 发布了 gpt-oss 大语言模型,包含 120B-A5.1B 以及 20.9B-A3.6B 两个 size, 作者强调了模型的 instruction following, tool use, 以及 adaptive thinking 能力

Notes on QK-Norm

作者提出了 QK norm, 一个解决 softmax 注意力权重不稳定的 scaling 算法。