分布式训练:参数量与计算量分析

Basic computations in distributed training

在本文中,我们将要分析与大语言模型相关的参数量和计算量。在计算之前,我们会首先回顾一下大语言模型的架构

大语言模型架构

大语言模型参数计算

计算量估计

checkpointing

KV cache

参考文献

  1. 回旋托马斯x 文章
Built with Hugo
Theme Stack designed by Jimmy