概率模型

阅读量：5049 次

发布时间：2019-06-12

本文共 10678 字，大约阅读时间需要 35 分钟。

本文讨论的是信号处理中用到的概率模型（Probabilistic Models），主要目的是为了了解概率模型相关的基础概念，以供后续文章展开更为深入的讨论。

符号定义

首先规定概率模型所采用的符号。概率模型所设计的基础符号分为三个部分：

1. Sample Space 样本空间，也就是一个概率模型的总空间，用$\Psi$表示，采样空间内包含了所有可能的outcome（输出）$\psi$。每一次experiment（实验）能产生一个输出

2. Event Algebra 事件代数，通常简称为event（事件），表示的是采样空间内某些输出的集合。如果在实验中产生的一个输出属于某个事件，我们可以理解为发生了该事件。按照这种说法，$\Psi$是一个必然事件，$\varnothing$是一个不可能事件。

3. Probability Measure 概率测度。对于事件A，其概率为$P(A)$。

(a) $P(A)\geq 0$

(b) $P(\Psi) = 1$

画图能使得概率模型更容易理解

贝叶斯规则Bayes'Rule

贝叶斯公式

有事件A与B，两者的概率分别为$P(A)$与$P(B)$，它们在样本空间有如下表示

在事件B已发生的情况下，事件A出现的概率记为$P(A|B)$。对照上方的样本空间，可以发现事件$P(A|B)$就是事件$A\cap B$占事件B的比率。

$P(A|B) \triangleq \frac{P(A\cap B)}{P(B)}, \qquad P(B)\neq 0$

反过来有：

$P(A\cap B) = P(A|B)P(B)$

同理也能得到

$P(A\cap B) = P(B|A)P(A)$

把上面两个式子组合起来就能得到贝叶斯的一个公式

$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$

独立事件

如果事件A与B的概率满足以下条件，我们就认为两者相互独立

$P(A|B) = P(A)\qquad or\qquad P(A\cap B) = P(A)P(B)$

即事件A在整个样本空间内的概率为$P(A)$，事件A在样本空间$B$内的概率仍然是$P(A)$。

随机变量Random Variables

由于输出$\psi$只是集合$\Psi$中的元素，为了方便进行数学上的分析，我们需要把$\psi$映射到实数$X(\psi)$，该实数被称为随机变量，通常称为随机变量$X$，请注意这是一个变量。

Outcome（输出）有可能是离散的，如抛一次硬币只能是正面或者反面；也有可能是连续的，如在记录某时刻的温度时，温度可以是某个温度区间内的任何值。因此有以下随机变量

离散随机变量（Discrete Random Variable）

$X=\left\{\begin{matrix}1, & heads\\ 0, & tails \end{matrix} \right.$

连续随机变量（Continuous Random Variable）

$X={the\ exact\ temprature\ detected\ at\ 12:00\ am}$

上面分别是离散以及连续输出到随机变量X的映射，X表示的是一个可能的取值，如上面的离散的情况取值可能为0或者1，而连续的情况取值则可能为区间上的任意一个值。

概率的相关函数

累计分布函数Cumulative Distribution Functions

累计分布函数（CDF）的输出是从$-\infty$到变量$x$的累计概率

$F_X(x) = P(X\leq x)$

因此有

$P(a<X\leq b) = F_X(b) – F_X(a)$

CDF在负无穷端的值为$F_X(-\infty) = 0$，在正无穷端的值为$F_X(\infty) = 1$。

如上图是CDF的一个例子。在点$x_1$处的概率为$P(X=x_1) = F_X(x_1)-F_X(x_1-)$，由此可见上图中$P(X=0)=1$。

结合贝叶斯公式，有

$F_{X|L}(x|L_i) = P(X\leq x|L=L_i) = \frac{P(X\leq x, L=L_i)}{P(L=L_i)}$

$F_{X|L}(x|L_i)$表示的是已知$L=L_i$的情况下的CDF。

概率密度函数Probability Density Functions

对CDF求导就可以得到概率密度函数PDF。

$f_X(x) = \frac{dF_X(x)}{dx}$

PDF不可能输出负值，因为CDF是一个非递减的函数。如果CDF像上图一样非连续，那么PDF在非连续点处的值就是一个脉冲（Dirac impulse）。

按照PDF的定义，有

$P(a<X\leq b) =F_X(x)\Big|_a^b = \displaystyle{\int_a^bf_X(x)dx}$

在$x$点处的的概率为

$P(x) = \displaystyle{\int_{x-dx}^{x}f_X(x)dx}\approx f_X(x)dx$

概率质量函数Probability Mass Function

如果概率模型的随机变量$X$是离散的，该概率模型的PDF将会如上图一样，只会在特定的值上出现脉冲，其余的值为0。这种情况用PMF就能表示，PMF是一个离散函数，只需要记录某点上的概率

$pX(x_j) = P(X=x_j)$

上面的例子用PMF来表示如下图

联合分布随机变量Jointly Distributed Random Variables

定义

概率模型通常都有多个随机变量，如下是有两个随机变量X与Y的概率模型的CDF

$F_{X,Y}(x,y) = P(X\leq x, Y\leq y)$

对应的PDF为

$f_{X,Y}(x, y) = \frac{\partial^2 F_{X,Y}(x,y) }{\partial x\partial y}$

单边PDF $f_X(x)$的定义就是随机变量$X$的PDF，它跟联合密度函数$f_{X,Y}(x,y)$之间的关系是

$f_X(x) = \displaystyle{\int_{-\infty}^{\infty}f_{X,Y}(x,y)dy}$

同样，$f_Y(y)$也有这种关系。

概率表达

在点$(x,y)$上的概率为

$P(x, y) \approx f_{X,Y}(x,y)dxdy$

贝叶斯规则

在已知$Y=y$（事件B）的情况下，发生$X=x$（事件A）的概率为

$P(A|B) = P(X=x|Y=y)=F_{X|Y}(X=x|Y=y) $

同时又有

$P(A|B) = \frac{P(A\cap B)}{P(B)}=\frac{P(X=x, Y=y)}{P(Y=y)}=\frac{f_{X,Y}(x,y)dxdy}{f_Y(y)dy}$

如果我们假设随机变量$Y$已经确定$Y=y$，那么$P(X|Y=y)=F_{X|Y}(X|Y=y)$就是一个关于随机变量$X$的函数，该函数对$x$求导得到的是：已知$Y=y$的情况下，随机变量X的概率密度函数$f_{X|Y}(X|Y=y)$，有下面的式子

$f_{X|Y}(x|y) = \frac{dF_{X|Y}(X=x,Y=y)}{dx}=\frac{f_{X,Y}(x,y)dxdy}{f_Y(y)dydx} = \frac{f_{X,Y}(x,y)}{f_Y(y)}$

进一步推导还能得到

$\begin{align*}

P(B|A)

&= \frac{f_{X,Y}(x,y)dxdy}{f_X(x)dx}\\

&=\frac{f_{X,Y}(x,y)dy}{f_X(x)}\\

&=\frac{f_{X|Y}(x|y) f_Y(y)dy}{f_X(x)}\\

&=\frac{f_{X|Y}(x|y)P(Y=y)}{f_X(x)}\\

&=\frac{f_{X|Y}(x|y)P(B)}{f_X(x)}

\end{align*}$

独立事件

如果包含随机变量$X$与$Y$的联合分布的CDF或者PDF满足如下条件，则$X$与$Y$所属的事件相互独立

$f_{X,Y}(x,y) = f_X(x)f_Y(y)$

$F_{X,Y}(x,y) = F_X(x)F_Y(y)$

期望（Expectations）、矩（Moments）以及方差（Variance）

期望

The expectation — also termed the expected or mean or average value, or the first-moment — of the real-valued random variable X is denoted by $E[X]$ or $\overline{X}$ or $\mu_X$, and defined as

$E[X] = \overline{X} = \mu_X = \displaystyle{\int_{\infty}^{\infty}xf_X(x)dx}$

期望具有线性性质

$\begin{align*}E[X+Y] &=\int_{-\infty}^{\infty}xf_{X+Y}(x)dx\\

&=\int_{-\infty}^{\infty}x\Big(f_X(x)+f_Y(x)\Big)dx\\

&=\int_{-\infty}^{\infty}xf_X(x)dx+\int_{-\infty}^{\infty}xf_Y(x)dx\\

&=E[X]+E[Y]

\end{align*}$

方差

The variance or centered second-moment of the random variable $X$ is denoted by $\sigma^2$ and defined as

$\begin{align*}\sigma^2 &=E[(X-\mu_X)^2]\\

&= E[X^2-2X\mu_X+\mu_X^2]\\

&= E[X^2]-2\mu_XE[X]+\mu_X^2\\

&= E[X^2]-2\mu_X^2+\mu_X^2\\

&= E[X^2]-\mu_X^2

\end{align*}$

We refer to $E[X2]$ as the second-moment of $X$.

贝叶斯规则

我们这里主要是为了推导得到一条公式

$\color{red}{E[X] = E_{Y}[E_{X|Y}[X|Y]]}$

其中$E_{X|Y}[X|Y]$，即$E[X|Y]$表示是已知随机变量$Y$所代表的事件发生的情况下，随机变量$X$的期望值。按照期望的定义有如下公式

$\begin{align*}

E[X|Y] &= \int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\\

&=\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\\

&=g(y)

\end{align*}$

因此$E[X|Y]$是一个以$y$为变量的函数，我们可以认为是：在$Y=y$的前提下，随机变量$X$的期望值是与$y$有关的。

证明：

$\begin{align*}

E_{Y}[E_{X|Y}[X|Y]] &=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\\

&= \int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\right\}f_Y(y)dy\\

&=\int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\right\}f_Y(y)dy\\

&=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xf_{X,Y}(x,y)dxdy\\

&=\int_{-\infty}^{\infty}x\int_{-\infty}^{\infty}f_{X,Y}(x,y)dydx\\

&=\int_{-\infty}^{\infty}xf_X(x)dx\\

&=E[X]

\end{align*}$

这说明我们在不知道$f_X(x)$的情况下，通过$f_Y(y)$以及$g(y)$就能得到随机变量$X$的期望值。

独立事件

有两个随机变量分别为$Y,Z$，令$X=h(Y,Z)$，那么$X$也是一个随机变量，其期望为$E[X]$。现假设$h(y,z) = g(y)\ell(z)$，并且$Y$与$Z$相互独立，因此有

$\begin{align*}

E[X]&= E[g(y)\ell(z)] \\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y,Z}(y,z)dydz\\

&=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y}(y)f_{Z}(z)dydz\\

&=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\int_{-\infty}^{\infty}\ell(z)f_Z(z)dz\\

&=E[g(y)]E[\ell(z)]

\end{align*}$

符号定义

贝叶斯规则Bayes'Rule

贝叶斯公式

独立事件

随机变量Random Variables

概率的相关函数

累计分布函数Cumulative Distribution Functions

概率密度函数Probability Density Functions

概率质量函数Probability Mass Function

联合分布随机变量Jointly Distributed Random Variables

定义

概率表达

贝叶斯规则

独立事件

期望（Expectations）、矩（Moments）以及方差（Variance）

期望

方差

贝叶斯规则

独立事件

相关性与协方差 correlation and covariance

联合随机变量的location与spread

相关系数correlation coefficient $\rho$

$\rho$的定义

$\rho$其实就相当于对covariance进行了标准化。

$\rho$的实际意义

相关性的向量空间分析

从随机变量到向量空间的转换规则

实用的向量空间