Basic computations in distributed training
2025-05-13 11:26:36+0800
在本文中,我们将要分析与大语言模型相关的参数量和计算量。在计算之前,我们会首先回顾一下大语言模型的架构