Hugo PaperMod 主题精装修

引子 前段时间对博客进行了整理和翻新,趁着记忆还没完全模糊,将搭建博客的细节记录下来。个人而言,对目前博客的各项功能以及美观度还是比较满意的,...

December 17, 2024 · 6485 words

How to prompt LLM better?

prompt 在人与 LLM 的互动中起着关键的作用,好的 prompt 可以让 LLM「思考」更多一些,那么如何更好地理解 prompt 的组成,以及设计 prompt 来完成想要的任务便成了主要的目标...

May 24, 2024 · 4375 words

大模型的数学之路

问题 LLM 通过大量的语料来建模下一个 token 的概率,这种训练方式促成 LLM 成为一个「文科生」,那么我们不禁对以下几个问题好奇: LLM 目前在数学问题上取得的进展...

October 25, 2023 · 4932 words

Efficient Tricks for LLMs

如何高效训练或推理大模型一般在两点:如何装得下以及如何更快 这里讲一些主要的并行概念,不会深挖原理,只会介绍 key points,看它们分别为加速和...

October 13, 2023 · 2075 words

放大镜下的 InfoNCE

区分真实样本 前面的两种是为了去估计配分函数,接下来要介绍的 InfoNCE 虽然带个 NCE,但这个的目的不是要预估配分函数,他是直接像上篇应用 NCE 的方法一样,...

July 14, 2023 · 2193 words

NCE 的朋友们

在Noise Contrastive Estimation中,我们详细介绍了 NCE 算法,其实还有很多跟它类似的算法,继续以文本生成为例,基于上下文$\boldsymbo...

July 8, 2023 · 832 words

Numerical Stability

Why 当计算涉及到实数域时,比如圆周率的$\pi$,因为小数部分是无穷的,计算机是无法准确表示,因而只会用近似的值进行替代,这种情况下,误差相对...

June 25, 2023 · 2100 words

Bias Variance Decomposition

引言 我们规定,训练集记为$\mathcal{D}$,我们从中取一个样本$\boldsymbol{x}$,其训练集标签为$y_{\mathca...

June 21, 2023 · 991 words