贝叶斯理论

在介绍贝叶斯定理之前,我们先看一个例子

一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近视,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?

我们用 $ P(boy) $ 表示一个学生是男生的概率,$ P(pants\ \vert boy) $ 表示一个男生穿长裤的条件概率,$ P(pants\ \vert girl) $ 表示一个女生穿长裤的条件概率。那么一个穿长裤的学生是男生的概率可以表示为

\[P(boy \vert pants) = \frac{P(pants \vert boy) P(boy)}{P(pants \vert boy) P(boy) + P(pants \vert girl) P(girl)}\]

上式中分子其实就是 $ P(pants, boy) $ 的联合概率,分母是 $ P(pants) $ 的全概率,因此上式可以简化成

\[P(boy \vert pants) = \frac{P(pants, boy)}{P(pants)}\]

更一般地,我们用A, B表示这两个事件,有

\[P(A \vert B) = \frac{P(AB)}{P(B)}\]

贝叶斯定理

我们对上面的式子稍加变形,可以得到

\[P(AB) = P(A \vert B) P(B)\]

同理可以得到

\[P(AB) = P(B \vert A) P(A)\]

于是有

\[P(A \vert B) P(B) = P(B \vert A) P(A) \Rightarrow P(A \vert B) = \frac{P(B \vert A) P(A)}{P(B)}\]

这就是著名的贝叶斯定理。其中 $ P(A) $ 叫做事件A的先验概率(Prior probability), 表示我们可以事先通过观察或推断得到的一个概率,比如上例中学校里一个学生是男生的概率。$ P(A\ \vert B) $ 叫做事件A的后验概率(Posterior probability),是已知事件B发生后,我们对事件A的概率的重新评估,比如上例中我们看到一个穿长裤的学生,那么这个学生是男生的概率。$ P(B\ \vert A) $ 叫做似然度(likelihood), $ \frac{P(B\ \vert A)}{P(B)} $ 叫做标准似然度(Standardized likelihood)。贝叶斯定理可以表述为
后验概率 = 先验概率 * 标准似然度

朴素贝叶斯分类

朴素贝叶斯分类的思想很简单,就是对于给出的待分类项,计算在该项出现的条件下各个类别出现的概率,哪个最大,就认为该待分类项属于此类。朴素贝叶斯分类的过程如下:

  1. 设 $ \mathbf{x} = {a_1, a_2, …, a_m} $ 是一个待分类项以及类别集合 $ C = {y_1, y_2, y_n} $
  2. 计算 $ P(y_1\ \vert \mathbf{x}), P(y_2\ \vert \mathbf{x}), …, P(y_n\ \vert \mathbf{x}) $
  3. 若 $ P(y_k\ \vert \mathbf{x}) = max{P(y_1\ \vert \mathbf{x}), P(y_2\ \vert \mathbf{x}), …, P(y_n\ \vert \mathbf{x})} $ , 则 $ \mathbf{x} \in y_k $

使用朴素贝叶斯分类的关键是计算上面第2步中的 $P(y_k\ \vert \mathbf{x})$。根据贝叶斯定理有

\[P(y_k \vert \mathbf{x}) = \frac{P(\mathbf{x} \vert y_k) P(y_k)}{P(\mathbf{x})} \propto P(\mathbf{x} \vert y_k) P(y_k)\]

假如 $ \mathbf{x} $ 的各个特性属性是条件独立的,我们可以得到

\[P(\mathbf{x} \vert y_k) P(y_k) = P(a_1 \vert y_k) P(a_2 \vert y_k) ... P(a_m \vert y_k) P(y_k) = P(y_k) \prod_{i=1}^{m} P(a_i \vert y_k)\]

而 $ P(y_k) $ 和 $ P(a_i\ \vert y_k) $ 我们可以从大量样本中统计得到,因此可以使用贝叶斯方法进行分类。

Written on August 16, 2018
View: