Infra分布式训练:参数量与计算量分析Basic computations in distributed training在本文中,我们将要分析与大语言模型相关的参数量和计算量。在计算之前,我们会首先回顾一下大语言模型的架构大语言模型架构大语言模型参数计算计算量估计checkpointingKV cache参考文献回旋托马斯x 文章