Skip to main contentNoPE 是一个不需要显式位置编码的方法,相关研究说明不使用位置编码我们也可以让模型学习到对应的位置信息以及进行长度外推。 meta 等提出了 ALiBi, 一个通过 linear biases 来实现位置编码的方法来提高 LLM 在推理阶段的外推能力。 google 在 2020 年发表了 T5 (Text-to-Text Transfer Transformer), 一个使用统一框架来将所有 NLP 任务转换为 text-to-text 格式的迁移学习框架。 google 在 2018 年提出了 GPipe, 一个使用 pipeline parallelism 来训练大规模神经网络的并行策略 百川探究了 LLM 中 RoPE base frequency 与 context length 之间的关系,给出了 base frequency 与 context length 之间的 lower bound.