Skip to main contentOpenRouter在25年12月发布了一份基于100T token调用数据的统计报告,该报告从模型,任务,用户多角度分析了当前AI模型的使用情况 本文中,我们将介绍如何计算 LLM 在训练和推理过程中的内存需求以及简要介绍对应的优化方法。 本文汇总了NVIDIA GPU 系列的技术规格以及关键改进 Google 在 2022 年 8 提出了 GLaM,一个基于 MoE 架构的大语言模型系列,模型超过了 GPT-3 的表现 MiniMax-01 是一个基于 hybrid attention 架构的大模型系列,包含 MiniMax-Text-01 和 MiniMax-VL-01 两个模型,其中 MiniMax-Text-01 推理时支持 4M 的上下文长度,MiniMax-VL-01 支持 512B 的上下文长度