机器学习常用概率分布函数

离散变量概率分布

伯努力分布(Bernoulli Distribution)

伯努力分布又叫两点分布或0-1分布,其中随机变量 $X$ 只有0和1两个取值,其概率质量函数为

\[\left\{ \begin{aligned} P(X = 1) & = p \\ P(X = 0) & = 1 - p \end{aligned} \right. (0 < p < 1)\]

伯努力分布的期望和方差分别为

\[\mu = p\] \[\sigma^2 = p(1 - p)\]

二项分布(Binomial Distribution)

二项分布又叫n重伯努力分布,是指重复n次相互独立的伯努力试验,事件发生k次的概率

\[\begin{aligned} P(X=k) & = C_{n}^{k} p^k (1-p)^{n-k} \\ & = \frac{n!}{k!(n-k)!} p^k (1-p)^{n-k} \end{aligned}\]

二项分布的期望和方差分别为

\[\mu = np\] \[\sigma^2 = np(1-p)\]

泊松分布(Poisson Distribution)

泊松分布用来描述单位时间内事件发生次数的概率,假设 $\lambda$ 是单位时间内事件发生的平均次数,则泊松分布的概率质量函数为

\[P(X=k) = \frac{\lambda^{k}}{k!}e^{-\lambda}\]

泊松分布的期望和方差为

\[\mu = \lambda\] \[\sigma^2 = \lambda\]

几何分布(Geometric Distribution)

几何分布定义为n次相互独立的伯努力试验中,试验k次事件才第一次发生的概率

\[P(X=k) = (1-p)^{k-1} p\]

几何分布的期望和方差为

\[u = \frac{1}{p}\] \[\sigma^2 = \frac{1-p}{p^2}\]

连续变量概率分布

均匀分布(Uniform Distribution)

均匀分布的概率密度函数为

\[f(x) = \left\{ \begin{aligned} & \frac{1}{b-a} & a \leq x \leq b \\ & 0 & else \end{aligned} \right.\]

均匀分布的期望和方差为

\[\mu = \frac{b-a}{2}\] \[\sigma^2 = \frac{(b-a)^2}{12}\]

正态分布(Normal Distribution)

正态分布又叫高斯分布,其概率密度函数为

\[f(x) = \frac{1}{\sqrt{2\pi} \sigma} \exp(-\frac{(x-u)^2}{2\sigma^2})\]

正态分布的期望和方差就是公式中的 $\mu$ 和 $\sigma^2$

Gamma分布

先回忆一下Gamma函数

\[\Gamma(x) = \int_{0}^{\infty}t^{x-1}e^{-t}dt\]

Gamma函数具有如下递归性质

\[\Gamma(x+1) = x\Gamma(x)\]

很容易证明,Gamma函数可以当作是阶乘在实数集上的延拓,其中 $\Gamma(n) = (n-1)!$
Gamma分布的概率密度函数为

\[f(x, \alpha, \beta) = \left\{ \begin{aligned} & \frac{\beta^\alpha x^{\alpha - 1}}{\Gamma(\alpha)}e^{-\beta x} & x \ge 0 \\ & 0 & else \end{aligned} \right .\]

Gamma分布的期望和方差为

\[\mu = \frac{\alpha}{\beta}\] \[\sigma^2 = \frac{\alpha}{\beta^2}\]

Gamma分布具有可加性,即如果 $X \sim \Gamma(\alpha_1, \beta)$, $Y \sim \Gamma(\alpha_2, \beta)$,则 $Z = X + Y \sim \Gamma(\alpha_1 + \alpha_2, \beta)$

卡方分布(Chi-square Distribution)

若n个独立的随机变量 $\xi_1, \xi_2, …, \xi_n$ 均服从标准正态分布 $N(0, 1)$,则这n个随机变量的平方和 $Q = \sum_{i=1}^n \xi_i^2$ 服从卡方分布,记为 $Q \sim \chi^2(n)$。其中n称为自由度,表示样本中能独立或能自由变化的自变量的个数。卡方分布的概率密度函数为

\[f(x,n) = \left\{ \begin{aligned} &\frac{1}{2^{n/2}\Gamma(n/2)} x^{\frac{n}{2}-1} e^{-\frac{x}{2}} & x \gt 0 \\ &0 & x \le 0 \end{aligned} \right .\]

卡方分布的期望和方差为

\[\mu = n\] \[\sigma^2 = 2n\]

t分布(Student’s t Distribution)

t分布用于根据小样本来估计呈正态分布但方差未知的总体的均值。假设 $X \sim N(0, 1), Y \sim \chi^2(n)$,则 $Z = \frac{X}{\sqrt{Y/n}}$ 的分布称为自由度为n的t分布,记为 $Z \sim t(n)$。t分布的概率密度函数为

\[f(x, n) = \frac{\Gamma((n+1)/2)}{\sqrt{n \pi} \Gamma(n/2)}(1+\frac{x^2}{n})^{-\frac{n+1}{2}}\]

t分布的期望和方差为

\[\mu = 0\] \[\sigma^2 = \frac{n}{n-2} , n \gt 2\]

F分布

设X、Y是两个独立的随机变量,其中 $X \sim \chi^2(n), Y \sim \chi^2(m)$, 则这两个独立的卡方分布除以各自的自由度以后的比率服从F分布,即

\[F = \frac{X/n}{Y/m}\]

F分布的概率密度函数为

\[f(x,n,m) = \frac{ \sqrt{\frac{(nx)^nm^m}{(nx+m)^{n+m}}}}{xB(\frac{n}{2},\frac{m}{2})}\]

F分布的期望和方差为

\[\mu = \frac{m}{m-2}, m \gt 2\] \[\sigma^2 = \frac{2m^2(n+m-2)}{n(m-2)^2(m-4)}, m \gt 4\]

Beta分布

Beta分布的概率密度函数为

\[f(x, \alpha, \beta) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} x^{\alpha - 1} (1 - x)^{\beta - 1}\]

Beta分布的期望和方差分别是

\[\mu = \frac{\alpha}{\alpha + \beta}\] \[\sigma^2 = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}\]

一些有用的性质

Box-Muller 变换

如果随机变量 $U_1$, $U_2$ 独立且 $U_1, U_2 \sim Uniform(0,1)$

\[Z_0 = \sqrt{-2 \ln U_1}\cos(2\pi U_2)\] \[Z_1 = \sqrt{-2 \ln U_1}\sin(2\pi U_2)\]

则 $Z_0, Z_1$ 相互独立且服从正态分布。

参考

[1]LDA-math-神奇的Gamma函数(1)

Written on August 1, 2018
View: