LLM
Hands on LLM(1) Tokenizer
Tokenizer总结与BPE的高效实现
LLM
Notes on attention bias
为什么transformer没有QKV bias
LLM
Notes on Position encoding
从Absolute position encoding到RoPE
LLM
Notes on Qwen3
Qwen3 包括6个dense模型,2个MoE模型,主要亮点是快慢思考模式切换,多语种,支持thinking budge调整
MLLM
Notes on Seed1.5-VL
字节Seed在5月11号发布了Seed1.5-VL技术报告。技术报告详细介绍了Seed1.5-VL的架构,训练和评估细节
1
…
4
5
6
…
20