logistic regression¶

odds¶

事件的几率被定义为这个事件发生的概率和这个事件不发生的概率之比，对数几率用logit表示 $$ logit(p) = log\frac{p}{1-p} $$

maximum entropy model¶

最大熵原理认为，学习概率模型时，熵最大的模型是效果最好的。因为我们知道熵最大的时候常常意味着分布中各种取值的概率趋于相等，如果在没有约束条件的情况下，也就是我们对某些事物一无所知，那么我们理应认为他们发生的概率相等。

最大熵模型的学习（6.2.3）¶

在这一段中，书本上有些typo，就是求偏导数那一段，如果认真求导的话修正应该不难。

主要是后面得出（6.22）的过程中，我们会发现上一步分母是 $exp(1-w_0)$，到了下一步分母直接和$w_0$无关了，这是不是意味着$w_0$能被解出来？应该确实是这样，因为虽然我们在构建这个优化问题的时候$w_0$和其他分量似乎完全无关，但是我们后面有了各阶偏导数等于0的要求，所以额外的信息能让$w_0$依赖于其他分量被解出。

maximum likelyhood (6.2.4)¶

这个地方出现的对数似然函数似乎非常不符合直觉，因为我们之前的似然函数都是一系列概率连乘，但这个地方实际上是正确的。