Muon: 控制谱范数下的最速下降
本文将主要涵盖以下内容: 从理论角度推导 Muon 优化器,介绍其「控制谱范数下的最速下降」的特性,主要在 Bernstein 的博客 https://jeremybernste.in/writing/deriving-muon 的基础上进行延伸。值得注意的是,推导...
本文将主要涵盖以下内容: 从理论角度推导 Muon 优化器,介绍其「控制谱范数下的最速下降」的特性,主要在 Bernstein 的博客 https://jeremybernste.in/writing/deriving-muon 的基础上进行延伸。值得注意的是,推导...