NCE的朋友们

在Noise Contrastive Estimation中，我们详细介绍了 NCE 算法，其实还有很多跟它类似的算法，继续以文本生成为例，基于上下文 $\boldsymbol{c}$ ，要去词表 $\mathcal{V}$ 挑选 $\boldsymbol{w}$ 来生成：

Negative Sampling

其实要说 NCE 的缺点，就是需要花时间调参数，比如说 $k$ 和噪声分布 $p_{n}$ 的选择，而负采样则固定下来这两个参数，不同的负采样对于这两个参数的选择也不尽相同，这里介绍比较简单的一种

我们规定，当 $\mathcal{D}=1$ 时代表从训练集采样，而 $\mathcal{D}=0$ 则代表从噪声中采样，为了表达简便，对 $\boldsymbol{c}$ 进行省略，即 $p(\mathcal{D}=1|\boldsymbol{c}, \boldsymbol{w}) = p(\mathcal{D}=1|\boldsymbol{w})$

NCE 会这样求样本来自哪个采样的概率：

$$ \begin{align} p(\mathcal{D}=1|\boldsymbol{w}) & = \frac{p_{\boldsymbol{\theta }}(\boldsymbol{w})}{p_{\boldsymbol{\theta }}(\boldsymbol{w})+kp_{n}(\boldsymbol{w})} \\ p(\mathcal{D}=0|\boldsymbol{w}) & = \frac{kp_{n}(\boldsymbol{w})}{p_{\boldsymbol{\theta }}(\boldsymbol{w})+kp_{n}(\boldsymbol{w})} \end{align} $$

而负采样说，如果词表大小是 $|\mathcal{V}|$ ，不妨就采样 $|\mathcal{V}|$ 个噪声，而且每个噪声是等概率出现的，那么：

$$ \begin{align} p(\mathcal{D}=1|\boldsymbol{w}) & = \frac{p_{\boldsymbol{\theta }}(\boldsymbol{w})}{p_{\boldsymbol{\theta }}(\boldsymbol{w})+1} \\ p(\mathcal{D}=0|\boldsymbol{w}) & = \frac{1}{p_{\boldsymbol{\theta }}(\boldsymbol{w})+1} \end{align} $$

综合上面的式子来看，其实负采样是 NCE 的一种

Importance Sampling

我们记需要计算的分母（配分函数）为 $Z(\boldsymbol{\theta })$ ，注意： $u_{\boldsymbol{\theta}}(\boldsymbol{w}, \boldsymbol{c})=\exp(s_{\boldsymbol{\theta}}(\boldsymbol{w}, \boldsymbol{c}))$ ， $s_{\boldsymbol{\theta}}$ 为打分函数

$$ p_{\boldsymbol{\theta }}(\boldsymbol{w}|\boldsymbol{c}) = \frac{u_{\boldsymbol{\theta }}(\boldsymbol{w}, \boldsymbol{c})}{\underbrace{ \sum_{\boldsymbol{w}' \in \mathcal{V}}u_{\boldsymbol{\theta }}(\boldsymbol{w}', \boldsymbol{c}) }_{ Z(\boldsymbol{\theta }) }} = \frac{u_{\boldsymbol{\theta }}(\boldsymbol{w}, \boldsymbol{c})}{Z(\boldsymbol{\theta })} $$

那么：

$$ \begin{align} Z(\boldsymbol{\theta }) & = \sum_{\boldsymbol{w}' \in \mathcal{V}} u_{\boldsymbol{\theta }}(\boldsymbol{w}', \boldsymbol{c}) = \sum_{\boldsymbol{w}' \in \mathcal{V}} u_{\boldsymbol{\theta }}(\boldsymbol{w}', \boldsymbol{c}) {\color{blue}\frac{p_{n}(\boldsymbol{w}')}{p_{n}(\boldsymbol{w}')}} \\ &= \sum_{\boldsymbol{w}' \in \mathcal{V}} p_{n}(\boldsymbol{w}') \frac{u_{\boldsymbol{\theta }}(\boldsymbol{w}', \boldsymbol{c})}{p_{n}(\boldsymbol{w}')} \\ &= \mathbb{E}_{\boldsymbol{w}' \sim p_{n}} \frac{u_{\boldsymbol{\theta }}(\boldsymbol{w}', \boldsymbol{c})}{p_{n}(\boldsymbol{w}')} \end{align} $$

跟 NCE 不同的是，重要性采样并没有把配分函数当成参数，而是利用噪声数据去拟合它：

$$ p_{\boldsymbol{\theta }}(\boldsymbol{w}|\boldsymbol{c}) = \frac{u_{\boldsymbol{\theta }}(\boldsymbol{w}, \boldsymbol{c})}{Z(\boldsymbol{\theta })} = \frac{u_{\boldsymbol{\theta }}(\boldsymbol{w}, \boldsymbol{c})}{\mathbb{E}_{\boldsymbol{w}' \sim p_{n}} u_{\boldsymbol{\theta }}(\boldsymbol{w}', \boldsymbol{c})/p_{n}(\boldsymbol{w}')} $$

同样地操作，我们可以采样 $k$ 个噪声样本来去近似期望，即：

$$ p_{\boldsymbol{\theta }}(\boldsymbol{w}|\boldsymbol{c}) \approx \frac{u_{\boldsymbol{\theta }}(\boldsymbol{w}, \boldsymbol{c})}{\sum_{i=1}^{k}p_{n}(\boldsymbol{w}_{i})u_{\boldsymbol{\theta }}(\boldsymbol{w}_{i}, \boldsymbol{c})/p_{n}(\boldsymbol{w}_{i})} = \frac{u_{\boldsymbol{\theta }}(\boldsymbol{w}, \boldsymbol{c})}{\sum_{i=1}^{k}u_{\boldsymbol{\theta }}(\boldsymbol{w_{i}}, \boldsymbol{c})} $$

仔细看，其实重要性采样是利用蒙特卡洛采样将分母从一开始的 $|\mathcal{V}|$ 项降低到 $k$ 项

可能读者还比较熟悉 InfoNCE，但是它的思想不是为了去「近似配分」，这里就不放在一起展开了

Negative Sampling#

Importance Sampling#

Negative Sampling

Importance Sampling