噪声稳定性正则化:让 Transformer 训练加速 75% 的简单方法 | AGIDaily