LLM
Notes on Position encoding
从Absolute position encoding到RoPE
LLM
Notes on Qwen3
Qwen3 包括6个dense模型,2个MoE模型,主要亮点是快慢思考模式切换,多语种,支持thinking budge调整
MLLM
Notes on Seed1.5-VL
字节Seed在5月11号发布了Seed1.5-VL技术报告。技术报告详细介绍了Seed1.5-VL的架构,训练和评估细节
Infra
分布式训练:参数量与计算量分析
Basic computations in distributed training
Infra
分布式训练:如何训练一个模型
Basic computations in distributed training
1
…
9
10
11
…
25