5k5 分钟

Post-LN/Pre-LN的性能研究与极深 Transformer 的归一化函数设计