Muon: 控制谱范数下的最速下降
本文将主要涵盖以下内容: 从理论角度推导 Muon 优化器,介绍其「控制谱范数下的最速下降」的特性,主要在 Bernstein 的博客 https://jeremybernste.in/writing/deriving-muon 的基础上进行延伸。值得注意的是,推导...
本文将主要涵盖以下内容: 从理论角度推导 Muon 优化器,介绍其「控制谱范数下的最速下降」的特性,主要在 Bernstein 的博客 https://jeremybernste.in/writing/deriving-muon 的基础上进行延伸。值得注意的是,推导...
prompt 在人与 LLM 的互动中起着关键的作用,好的 prompt 可以让 LLM「思考」更多一些,那么如何更好地理解 prompt 的组成,以及设计 prompt 来完成想要的任务便成了主要的目标...
问题 LLM 通过大量的语料来建模下一个 token 的概率,这种训练方式促成 LLM 成为一个「文科生」,那么我们不禁对以下几个问题好奇: LLM 目前在数学问题上取得的进展...
如何高效训练或推理大模型一般在两点:如何装得下以及如何更快 这里讲一些主要的并行概念,不会深挖原理,只会介绍 key points,看它们分别为加速和...