Skip to main contentGoogle 在 2022 年 8 提出了 GLaM,一个基于 MoE 架构的大语言模型系列,模型超过了 GPT-3 的表现 MiniMax-01 是一个基于 hybrid attention 架构的大模型系列,包含 MiniMax-Text-01 和 MiniMax-VL-01 两个模型,其中 MiniMax-Text-01 推理时支持 4M 的上下文长度,MiniMax-VL-01 支持 512B 的上下文长度 DeepSeek 在 25 年 10 月发布了 DeepSeek-V3.2, 模型强调了稀疏注意力,scaling RL 以及 agentic task synthesis. Gemini 3.0 是是 Google 新一代最强模型,model card 介绍了 Gemini 3.0 系列的评估结果以及基本能力 本文介绍了 softmax 函数的性质,实现和应用,方便后续的使用和学习