Muon: 控制谱范数下的最速下降

本文将主要涵盖以下内容: 从理论角度推导 Muon 优化器,介绍其「控制谱范数下的最速下降」的特性,主要在 Bernstein 的博客 https://jeremybernste.in/writing/deriving-muon 的基础上进行延伸。值得注意的是,推导...

June 3, 2025 · 6883 words