MLLM
Reasoning
Notes on MiMo-VL
MiMo-VL基于MiMo-7B,是一个多模态推理大语言模型
LLM
Hands on LLM(1) Tokenizer
Tokenizer总结与BPE的高效实现
LLM
Notes on attention bias
为什么transformer没有QKV bias
LLM
Notes on Position encoding
从Absolute position encoding到RoPE
LLM
Notes on Qwen3
Qwen3 包括6个dense模型,2个MoE模型,主要亮点是快慢思考模式切换,多语种,支持thinking budge调整
1
…
14
15
16
…
30