Efficient Tricks for LLMs

如何高效训练或推理大模型一般在两点:如何装得下以及如何更快 这里讲一些主要的并行概念,不会深挖原理,只会介绍 key points,看它们分别为加速和...

October 13, 2023 · 2075 words

Numerical Stability

Why 当计算涉及到实数域时,比如圆周率的$\pi$,因为小数部分是无穷的,计算机是无法准确表示,因而只会用近似的值进行替代,这种情况下,误差相对...

June 25, 2023 · 2100 words