Transformer 学习记录

基于 llama2.c 的 run.c 源码注释,梳理 Decoder-only Transformer 的推理流程、RoPE、Attention、FFN、采样和 BPE。

January 28, 2026 · 15 min · 浏览 --