llms | Tai's Blog

Muon: 控制谱范数下的最速下降

本文将主要涵盖以下内容：从理论角度推导 Muon 优化器，介绍其「控制谱范数下的最速下降」的特性，主要在 Bernstein 的博客 https://jeremybernste.in/writing/deriving-muon 的基础上进行延伸。值得注意的是，推导...

prompt 在人与 LLM 的互动中起着关键的作用，好的 prompt 可以让 LLM「思考」更多一些，那么如何更好地理解 prompt 的组成，以及设计 prompt 来完成想要的任务便成了主要的目标...

问题 LLM 通过大量的语料来建模下一个 token 的概率，这种训练方式促成 LLM 成为一个「文科生」，那么我们不禁对以下几个问题好奇： LLM 目前在数学问题上取得的进展...

如何高效训练或推理大模型一般在两点：如何装得下以及如何更快这里讲一些主要的并行概念，不会深挖原理，只会介绍 key points，看它们分别为加速和...