Notes on NoPE

NoPE 是一个不需要显式位置编码的方法,相关研究说明不使用位置编码我们也可以让模型学习到对应的位置信息以及进行长度外推。

GPipe

google 在 2018 年提出了 GPipe, 一个使用 pipeline parallelism 来训练大规模神经网络的并行策略