Posts

Agentic Coding: 当编程被按下加速键

Cursor 刚火起来的时候自己还是比较保守的，或者说不想费事去搞，毕竟在从业者眼中 Agentic Coding 还多半是一个「半成品」的状态，因为一个半成品而消耗自己的精力，这...

本文将主要涵盖以下内容：从理论角度推导 Muon 优化器，介绍其「控制谱范数下的最速下降」的特性，主要在 Bernstein 的博客 https://jeremybernste.in/writing/deriving-muon 的基础上进行延伸。值得注意的是，推导...

Mihomo_config 这里存放了我个人的 Mihomo 覆写文件，可以进行参考，请务必读懂本文后使用，不要盲目照抄 YAML 引子代理，对于很多人来说并不陌生，尤其是在科研领域，例如在...

引子前段时间对博客进行了整理和翻新，趁着记忆还没完全模糊，将搭建博客的细节记录下来。个人而言，对目前博客的各项功能以及美观度还是比较满意的，...

prompt 在人与 LLM 的互动中起着关键的作用，好的 prompt 可以让 LLM「思考」更多一些，那么如何更好地理解 prompt 的组成，以及设计 prompt 来完成想要的任务便成了主要的目标...

问题 LLM 通过大量的语料来建模下一个 token 的概率，这种训练方式促成 LLM 成为一个「文科生」，那么我们不禁对以下几个问题好奇： LLM 目前在数学问题上取得的进展...

如何高效训练或推理大模型一般在两点：如何装得下以及如何更快这里讲一些主要的并行概念，不会深挖原理，只会介绍 key points，看它们分别为加速和...

区分真实样本前面的两种是为了去估计配分函数，接下来要介绍的 InfoNCE 虽然带个 NCE，但这个的目的不是要预估配分函数，他是直接像上篇应用 NCE 的方法一样，...