应用随机过程的预备知识

Posted on 2025-05-01

应用随机过程：测度论预备知识

$\sigma$代数，可测空间，随机事件

设$\Omega$是一个样本空间(或任意一个集合),$\mathcal{F}$是$\Omega$的某些子集组成的集簇.如果满足：

$\Omega \in \mathcal{F} ;$
若$A\in\mathcal{F}$,则$A^c=\Omega\setminus A\in\mathcal{F};$
若$A_n\in \mathcal{F} , n= 1, 2, \cdots \textbf{, 则 }\bigcup _{n= 1}^\infty A_n\in \mathcal{F} ;$

则称$\mathcal{F}$为$\sigma$代数。$(\Omega , \mathcal{F} )$称为可测空间，$\mathcal{F}$中的元素称为随机事件；

Mark

一个事件应该理解成一个集合，它可以用若干样本点表示；

Property

$\Omega,\varnothing \in \mathcal F$.
$\mathcal F$对集合的可数交，可数并，差，补运算封闭；

生成$\sigma$代数, Borel $\sigma$代数

以$\Omega$的某些子集为元素的集合称为$(\Omega$上的)集类。对于$\Omega$上的任一非空集类$\mathcal{C}$,存在包含$\mathcal{C}$的最小$\sigma$代数，称为由$\mathcal{C}$生成的$\sigma$代数，记为$\sigma(\mathcal{C}).$
$$
\sigma(\mathcal{C})=\bigcap{\mathcal{H}|\mathcal{H}\text{为包含}\mathcal{C}\text{的}\sigma\text{代数}}.
$$
设$\Omega=\mathbb{R}$。由所有半无限区间$(-\infty,x)$生成的$\sigma$代数称为$\mathbb{R}$上的 Borel $\sigma$代数，记为$\mathcal{B}(\mathbb{R})$, 其中的元素称为 Borel 集合。类似地，可定义$\mathbb{R}^n$上的 Borel $\sigma$代数$\mathcal{B}(\mathbb{R}^n)$。

Mark

如何理解最小？对于$\forall \mathcal C \subset \mathcal X\Rightarrow\sigma(\mathcal C) \subset \mathcal X$.

Example

对样本空间$\Omega$,随机事件$A,B$,写出以下集簇$\mathcal C$的最小$\sigma$代数：

$\mathcal C={A}:\sigma(\mathcal C)={\Omega,\varnothing,A,A^{\mathcal C}}$.
$\mathcal C={A,B}:\sigma(\mathcal{C})={\emptyset,\Omega,A,A^c,B,B^c,A\cap B,A\cap B^c,A^c\cap B,A^c\cap B^c,A\cup B,A\cup B^c,A^c\cup B,A^c\cup B^c}.$

概率空间，事件，概率

设$(\Omega,\mathcal{F})$是可测空间，$P(\cdot)$ 是定义在$\mathcal{F}$上的实值函数。如果

(非负性)$\forall A\in\mathcal{F},0\leq P(A)\leq1;$
(规范性)$P(\Omega)=1;$
(可列可加性)对两两互不相容事件$A_1,A_2,\cdots$,(即当$i\neq j\textbf{时 , }A_i\cap A_j= \emptyset$)有

$$
P(\bigcup_{i=1}^\infty A_i)=\sum_{i=1}^\infty P(A_i)
$$

则称$P$是$(\Omega,\mathcal{F})$上的概率，$(\Omega,\mathcal{F},P)$称为概率空间，$\mathcal{F}$中的元素称为事件，$P(A)$称为事件$A$的概率.

Property

$P( \emptyset ) = 0.$
(有限可加性)若$A_i\in\mathcal{F},i=1,\ldots,n;$且$A_i\cap A_j= \emptyset , \forall i\neq j\textbf{, 有 }P( \bigcup _{i= 1}^nA_i) = \sum _{i= 1}^nP( A_i) .$
$\forall A\in \mathcal{F} , P( A) = 1- P( A^c) .$
(单调性)若$A\subset B, \textbf{则 }P( A) \leq P( B)$,$P(B-A)=P(B)-P(A).$
(概率加法定理)$P(A\cup B)=P(A)+P(B)-P(A\cap B).$
Jordan公式：$P\left(\bigcup_{i=1}^nA_i\right)=\sum_{k=1}^n\sum_{i_1<\cdots<i_k}(-1)^{k-1}P(A_{i_1}\cdots A_{i_k})$.
若$A_n\in \mathcal{F} , n\geq 1, \textbf{则 }P( \bigcup _{n\geq 1}A_n) \leq \sum _{n\geq 1}P( A_n) .$

证明
不妨设不等式右端小于$+\infty.$构造互斥事件序列$\{E_n\}$,其中 $$E_n=\left\{\begin{matrix}A_1,&n=1,\\A_n-\bigcup_{i=1}^nA_j,&n>1.\end{matrix}\right.$$ 于是有$E_n\subseteq A_{n\text{,并且}\bigcup_{i=1}^nE_i}=\bigcup_{i=1}^nA_i,\bigcup_{i=1}^\infty E_i=\bigcup_{i=1}^\infty A_i$,从而 $$P\left(\bigcup_{i=1}^\infty A_i\right)=P\left(\bigcup_{i=1}^\infty E_i\right)=\sum_{i=1}^\infty P(E_i)\leq\sum_{i=1}^nP(A_i).$$

事件的极限

事件的单调性：若对每个$n$,有$A_n\subset A_n+1($或 $A_n\supset A_n+1)$, 则称事件序列${A_n}_{n>1}$为单调增(或单调降)。

对单调增或单调降序列${A_n}$,我们分别令$A=\bigcup_nA_n$或$A=\bigcap_nA_n$ 称$A$为${A_n}$的极限，通常记为$A_n\uparrow A$或$A_n\downarrow A.$

设${ A_n} {n\geq 1}\textbf{为一事件序列。令 }$
$$
\limsup{n\to\infty}A_n=\bigcap_{n=1}^\infty\bigcup_{k=n}^\infty A_k\
\liminf_{n\to\infty}A_n=\bigcup_{n=1}^\infty\bigcap_{k=n}^\infty A_k
$$
分别称其为${A_n}$的上极限和下极限。

若$\lim\sup_{n\to\infty}A_n=\liminf_{n\to\infty}A_n$,则称${A_n}$极限存在，用$\lim_{n\to\infty}A_n$表示

Mark

如何理解上极限，下极限？

上极限：全体出现在无穷个$A_k$中的元素；
下极限：全体只在有限个$A_k$中不存在的元素；

$$
\begin{aligned}
\limsup_{n\to\infty}A_n&={w|\forall n\in\mathbb{N},\exists k\geq n,\text{使}w\in A_k}
\&={w|w\text{属于无穷多个}A_n}\
\liminf_{n\to\infty}A_n&={w|\exists n\in\mathbb{N},\forall k\geq n,\text{有}w\in A_k}\&={w|w\text{至多不属于有限多个}A_n}
\end{aligned}\
$$

Property

若$A_n\in\mathcal{F}$ 且 $A_n\uparrow A\in\mathcal{F}(A_n\downarrow A\in\mathcal{F})$, 则$P(A)=\operatorname*{lim}_{n\to\infty}P(A_n).$

证明
设$\{A_n\}$是单调增序列，构造互斥事件序列$\{B_n\}$,其中 $$B_n=\begin{cases}A_1,&n=1,\\A_n-A_{n-1},&n>1.\end{cases}$$ 于是有$\bigcup_{i=1}^nA_i=\bigcup_{i=1}^nB_i$ 及$\bigcup_{i=1}^\infty A_i=\bigcup_{i=1}^\infty B_i$,故 $$\begin{aligned}P\left(\lim_{n\to\infty}A_n\right)&=P\left(\bigcup_{i=1}^\infty A_i\right)=P\left(\bigcup_{i=1}^\infty B_i\right)=\sum_{i=1}^\infty P(B_i)\\&=\lim_{n\to\infty}\sum_{i=1}^nP(B_i)=\lim_{n\to\infty}P\left(\bigcup_{i=1}^nB_i\right)\\&=\lim_{n\to\infty}P\left(\bigcup_{i=1}^nA_i\right)=\lim_{n\to\infty}P(A_n).\end{aligned}$$
(Borel-Cantelli第一引理)设${A_n,n\geq1}$是一列事件，若$\sum_{n= 1}^\infty P( A_n) < \infty $, 则 $P(\operatorname*{lim}\mathop{\mathrm{sup}}_{n\to\infty}A_n)=0$.

证明
易知$\bigcup_{i=n}^\infty A_i$是关于$n$的单调减序列，故 $$\begin{aligned}0\leq P(\lim_{i\to\infty}\sup A_i)&=P\left(\bigcap_{n=1}^\infty\bigcup_{i=n}^\infty A_i\right)=P\left(\lim_{n\to\infty}\bigcup_{i=n}^\infty A_i\right)\\&=\lim_{n\to\infty}P(\bigcup_{i=n}^\infty A_i)\leq\lim_{n\to\infty}\sum_{i=n}^\infty P(A_i)=0.\end{aligned}$$ 从而得证.
(Borel-Cantelli第二引理)设${A_n,n\geq1}$是一列事件，若$\sum_{n= 1}^\infty P( A_n) = \infty $, 则 $P(\operatorname*{lim}\mathop{\mathrm{sup}}_{n\to\infty}A_n)=1$.

随机变量，分布函数

设$(\Omega,\mathcal{F},P)$是概率空间，$X$是定义在$\Omega$上取值于实数集$\mathbb{R}$的函数，如果对任意实数$x\in \mathbb{R}$, ${ \omega : X( \omega ) \leq x} \in \mathcal{F}$,则称$X(\omega)$是$\mathcal{F}$上的随机变量，简称为随机变量.
$$
F(x)=P(\omega:X(\omega)\leq x),\quad-\infty<x<\infty
$$
称为随机变量$X$的分布函数.

若向量$\mathbf{X}=(X_1,\cdots,X_d)$满足对所有的$k,1\leq k\leq d,X_k$都是随机变量，则称$\mathbf X$为多维随机变量，也称随机向量.

多维随机变量$\mathbf{X}=(X_1,\cdots,X_d)$,的$(d$维联合)分布函数写作
$$
F(x_1,\cdots,x_d)=P(X_1\leq x_1,\cdots,X_d\leq x_d).
$$
这里$d$为正整数，$x_k\in\mathbb{R},k=1,2,\ldots,d.$

Property

$F( x_1, \cdots , x_d)$对每个变量都是单调的；
$F( x_1, \cdots , x_d)$对每个变量都是右连续的；
$\forall i= 1, 2, \cdots , d$,$\lim_{x_i\to-\infty}F(x_1,\cdots,x_i,\cdots,x_d)=0;$
$\lim_{x_1,x_2,\cdots,x_d\to+\infty}F(x_1,x_2,\cdots,x_d)=1.$

边缘分布，联合密度

设$F(x_1,\cdots,x_d)$为$(X_1,\cdots,X_d)$的联合分布函数.对 $\forall 1\leq k_{1}< \cdots < k_{n}\leq d$, $( X_{k_{1}}, \cdots , X_{k_{n}})$的边缘分布为
$$
F_{X_{k_1},\cdots,X_{k_n}}(x_{k_1},\cdots,x_{k_n})=F(\infty,\cdots,\infty,x_{k_1},\infty,\cdots,\infty,x_{k_2},\infty,\cdots,\infty,x_{k_n},\infty,\cdots,\infty).
$$
如果
$$
f(x_1,\cdots,x_d)=\frac{\partial^dF}{\partial x_1\cdots\partial x_d}
$$
对所有的 $(x_1,\cdots,x_d)\in R^d$ 存在，则称函数$f( x_1, \cdots , x_d) \textbf{为 X}= ( X_1, \cdots , X_d)$的联合密度函数，并且
$$
F(x_1,\cdots,x_d)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_d}f(t_1,\cdots,t_d)dt_d\cdots dt_1.
$$

Mark

并非所有分布都具有概率密度，比如Cantor分布；

示性函数

任意事件 $A$的示性函数为:$ \mathbb I_A(\omega) = \begin{cases} 0, & A\ 没发生, \1, & A\ 发生了. \end{cases}$

若$A \in \cal F$ , 则$ \mathbb I_A(\omega)$ 是随机变量;

若$A \notin \cal F $, 则$\mathbb I_A(\omega)$ 不是随机变量.

给定$ (\Omega, \cal F)$ 和事件序列$B_n \in \cal F$ , 若 $\forall (k \ne l): B_k\cap B_l = \varnothing$ 且$\bigcup_{k = 1}^\infty B_k =\Omega $, 则称${B_k} $为 $\Omega$ 的一个划分 .

若 ${B_k}$ 是$\Omega$ 的一个划分, 则 $X(\omega) = \sum_{n = 1}^\infty x_n \mathbb I_{B_n} (\omega) $是随机变量, 其中 $ x_n \in \R $.

Riemann-Stieltjes积分

设$a=x_0<x_1<\cdots<x_n=b$为有限区间$(a,b]$的一个分割，$g(x),F(x)$为$(a,b]$上的实值函数。令
$$
\Delta F(x_i)=F(x_i)-F(x_{i-1}),\xi_i\in[x_{i-1},x_i],1\leq i\leq n,
$$
和$\lambda=\max_1\leq i\leq n(x_i-x_{i-1})$。如果当$\lambda\to0$时，极限
$$
\lim_{\lambda\to0}\sum_{i=1}^ng(\xi_i)\Delta F(x_i)
$$
存在，且与分割的选择以及$\xi_i\in[x_{i-1},x_i]$的取法无关，则称该极限值为函数$g(x)$关于$F(x)$ 在$(a,b]$上的 Riemann-Stieltjes积分，记为
$$
\int_a^bg(x)dF(x)=\lim_{\lambda\to0}\sum_{i=1}^ng(\xi_i)\Delta F(x_i).
$$

Property

(线性性质)$\int_a^b[\alpha g_1(x)\pm\beta g_2(x)]dF(x)=\alpha\int_a^bg_1(x)dF(x)\pm\beta\int_a^bg_2(x)dF(x).$
(区间可加性$)\int_a^bg(x)dF(x)=\int_a^cg(x)dF(x)+\int_c^bg(x)dF(x).$
$\int_a^bdF(x)=F(b)-F(a)$,其中$a,b$均可为有限数或无穷大.
$\int_a^bg(x)d[\alpha F_1(x)+\beta F_2(x)]=\alpha\int_a^bg(x)dF_1(x)+\beta\int_a^bg(x)dF_2(x).$
若$g(x)\geq0,:F(x)$单调不减,$b>a$,则 $ \int_a^b g(x)d F(x)\geq 0. $

数学期望,方差，原点矩

$F(x)$是随机变量的分布函数，其数学期望定义为
$$
E[X]=\int_{-\infty}^{+\infty} xdF(x)
$$
方差定义为
$$
Var(X)=\int_{-\infty}^{+\infty} [x-E(x)]^2dF(x)
$$
$k$阶原点矩定义为
$$
\gamma_k(X)=E[X^k]
$$
中心矩定义为
$$
\mu_k(X)=E([X-E(X)]^k)
$$
协方差定义为
$$
Cov(X,Y)=E[(X-E[X])(Y-E[Y])]=E(XY)-E[X]E[Y]
$$
$k+l$阶混合矩定义为$E[X^kY^l]$，混合中心矩定义为$E[(X-E[X])^k(Y-E[Y])^l]$

Mark

期望有可能是不存在的，比如Cauchy分布：
$$
f(x)=\frac{1}{2\pi}\frac{1}{x^2+1},x\in \mathbb R
$$
概率论版本的Jesen不等式如下：

对于$\varphi’’\ge 0$($\varphi$是凸函数),有
$$
\varphi(E[X])\le E[\varphi(x)]
$$
对于全排列$[n]$的置换$\sigma$ ,满足$\sigma(i)=i$的下标个数为$X$，$E[X]=Var[X]=1$

矩母函数

若随机变量$X$的分布函数为$F_X(x)$,则称
$$
M_X(t)=E[e^{tX}]=\int_{-\infty}^\infty e^{tx}dF_X(x)
$$
为$X$的矩母函数.

Property

$M_X^{(n)}(t)=E[X^ne^{tX}]$
$E[X^n]=M_X^{(n)}(0)$
矩母函数存在时，将唯一决定分布，也即矩母函数和分布唯一对应
若概率密度存在，则$M_X(t)$是$f(x)$的Laplace变换

特征函数

若随机变量$X$的分布函数为$F_X(x)$,则称
$$
\psi_X(t)=E[e^{itX}]=\int_{-\infty}^\infty e^{itx}dF_X(x)
$$
为$X$的特征函数 .

Property

分布函数由其特征函数唯一决定.如果有概率密度$f( x) \textbf{, 则 }\psi X( t)$就是$f(x)$的Fourier变换
$$
\psi_X(t)=\int{-\infty}^\infty e^{itx}f_X(x)dx
$$
(有界性)$|\psi(t)|\leq1=\psi(0);$
(共轭对称性)$\psi(-t)=\overline\psi(t);$
(一致连续性)$|\psi(t+h)-\psi(t)|\leq\int_{-\infty}^\infty|e^{ihx}-1|dF(x);$
(线性变换)设$Y=aX+b$,则$Y$的特征函数是$\psi_Y(t)=e^{ibt}\psi_X(at);$
两个相互独立的随机变量之和的特征函数等于它们的特征函数之积.
(非负定性)对于任意的正整数$n$,任意实数$t_1,\cdots,t_n$及复数$\lambda_1,\cdots,\lambda_n$,有
$$
\sum_{k=1}^n\sum_{j=1}^n\psi(t_k-t_j)\lambda_k\overline{\lambda_j}=\int_{-\infty}^{+\infty}|\sum_{k=1}^n \lambda_ke^{it_kx}|^2 dx\geq0.
$$
设随机变量$X$有$n$阶矩存在，则它的特征函数可微分$n$次，且当$k\leq n$时，有
$$
\psi^{(k)}(0)=i^kE[X^k]
$$
特征函数可作如下带皮阿诺型余项的Taylor展开：
$$
\psi(t)=1+itE[X]+\frac{(it)^2}{2!}E[X^2]+\cdots+\frac{(it)^n}{n!}E[X^n]+o(t)
$$

收敛性

几乎必然收敛

设${X_n,n\geq1}$是随机变量序列，若存在随机变量$X$使得
$$
P[\omega\in\Omega:\lim_{n\to\infty}X_n(\omega)=X(\omega)]=1,
$$
则称随机变量序列${ X_n, n\geq 1}$ 几乎必然收敛 (或以概率1收敛于$X$), 记为 $ X_n \xrightarrow{a. s_{\cdot }}X.$

等价命题：$X_n\xrightarrow{a.s}X$当且仅当对任意的$\epsilon > 0\textbf{, 有 }$
$$
P(\lim\sup_{n\to\infty}{|X_n-X|\geq\epsilon})=0.
$$

Mark

事件${lim_{n\to \infty}X_n(\omega)=X(\omega)}$发生的概率是1，几乎是一个必然事件，我们认为事件$X_n(\omega)=X(\omega)$几乎处处成立；

考虑喂养一个宠物，并将该宠物每天消耗的食物量记为Xn.虽然Xn是不可预测的，但我们可以非常确定有一天该数字将变为零，并且此后将永远保持为零；
假设一个人每天早上抛七枚硬币。硬币每出现一个正面，当天下午他都会向慈善机构捐赠一块钱。然而，如果某一天硬币的结果全是反面，他就会永远停止捐赠。设$X_1,X_2, . . .$为慈善机构每天从他那里收到的金额。我们几乎可以肯定，有一天这个金额将为零，并在那之后永远保持为零。然而，当我们考虑任何有限的天数时，终止条件不会发生的概率不为零（虽然这个概率极小）;

依概率收敛

设${X_n,n\geq1}$是随机变量序列,若存在随机变量$X$,使得$\forall\varepsilon>0$,有
$$
\lim_{n\to\infty}P{|X_n-X|\geq\varepsilon}=0
$$
则称随机变量序列${ X_n,n\geq1}$依概率收敛于$X$, 记为$X_n\xrightarrow{P}X$.

Mark

随着事件序列的进展，‘不寻常‘的结果发生的概率越来越小；

假设随机数生成器生成0到1之间的伪随机浮点数.设$X$为生成器输出的数字，由于伪随机数是确定性生成的，因此其下一个值并不是真正随机的。假设当观察一系列随机生成的数字时，可以推断出它的模式并对下一个随机生成的数字是什么做出越来越准确的预测。令$X_n$为在观察前$n − 1$个随机数后对下一个随机数的值做的猜测。随着对生成器的模式越来越了解，猜测也将变得更加准确，$Xn$的结果会收敛到$X$的结果。

Property

随机变量序列$X_n\xrightarrow PX$的充分必要条件是${X_n}$的任意子序列都包含几乎必然收敛于$X$的子序列;

$p$次平均收敛

称随机变量$X\in L^p$ ,如果其满足 $E(|X|^p)<\infty$ ;

设随机变量序列${X_n}\subset L^p,p\geq1$,随机变量$X\in L^p$,若有
$$
\lim_{n\to\infty}E[|X_n-X|^p]=0
$$
则称随机变量序列${ X_n, n\geq 1}$ $ p$次平均收敛于$ X$.记作$X_n\xrightarrow{L^p}X$

依分布收敛

设${F_n(x)}$是分布函数列，如果存在一个单调不减函数$F(x)$, 使得在$F(x)$的所有连续点$x$上均有
$$
\lim_{n\to\infty}F_n(x)=F(x)
$$
则称${ F_n( x) }$ 弱收敛于 $F( x)$,记为 $F_n( x) \xrightarrow{W}F( x) .$

设随机变量$X_n,X$的分布函数分别为$F_n(x)$及$F(x)$,$F_n(x)\xrightarrow{W}F(x)$，则称${X_n}$依分布收敛于$X$,记为$X_n\xrightarrow{L}X.$

Mark

$$
X_n\xrightarrow{L^p}X \Rightarrow X_n\xrightarrow PX \Rightarrow X_n\xrightarrow{L}X.
$$
$$
X_n\xrightarrow{a.s.}X \Rightarrow X_n\xrightarrow PX \Rightarrow X_n\xrightarrow{L}X.
$$
$$
\exists {X_n, n\ge 1}, X_n\xrightarrow{P}X ，X_n\xrightarrow{L^p}X , X_n \stackrel{a.s.}\nrightarrow X.
$$

定义$\Omega=(0,1],A_n(i)=(\frac{i-1}{n},\frac in],X_n^i(\omega)=\begin{cases}1&,\omega\in A_n(i)\0&,\omega\notin A_n(i)\end{cases}$

验证序列
$$
{Y_i}_{i=1}^\infty = { X_1^1,X_2^1,X_2^2,X_3^1,X_3^2,X_3^3,…}
$$
满足构造要求
$$
\exists {X_n, n\ge 1}, X_n\xrightarrow{a.s.}X , X_n \stackrel{L^p}\nrightarrow X.
$$

定义$\Omega=(0,1],A_n(i)=(\frac{i-1}{n},\frac in],X_n^i(\omega)=\begin{cases}e^n&,\omega\in A_n(i)\0&,\omega\notin A_n(i)\end{cases}$

验证序列
$$
{Y_i}_{i=1}^\infty = { X_1^1,X_2^1,X_2^2,X_3^1,X_3^2,X_3^3,…}
$$
满足构造要求

独立性

设$A_1,A_2,\cdots,A_n$为$n$个事件，如果对任何$m\leq n$及1$\leq k_1< k_2< \cdots < k_m\leq n$, 有
$$
P\left(\bigcap_{j=1}^mA_{k_j}\right)=\prod_{j=1}^mP(A_{k_j})
$$
则称$ A_1,A_2,\cdots,A_n$ 相互独立.

设$n$维随机变量$(X_1,\cdots,X_n)$的联合分布函数为$F(x_1,\cdots,x_n)$,若对所有实数组$(x_1,\cdots,x_n)$均有
$$
F(x_1,\cdots,x_n)=F_{X_1}(x_1)\cdots F_{X_n}(x_n)
$$
成立，其中 $ F_{X_k}(x_k) $是关于$X_k$的边缘分布，则称$X_1,X_2,\cdots,X_n$相互独立。

Property

$A_1,A_2,\cdots,A_n$两两独立不一定相互独立.
$$
E\Big(\prod_{k=1}^nX_k\Big)=\prod_{k=1}^nE(X_k)
$$
$$
Var\Big(\sum_{k=1}^nX_k\Big)=\sum_{k=1}^nVar(X_k)
$$

条件概率，全概率公式，Bayes公式

设$B$是一个事件，且$P( B) > 0$. 则事件$B$发生的条件下事件$A$发生的条件概率为
$$
P(A|B)=\frac{P(A\cap B)}{P(B)}
$$

全概率公式:

设${B_n}$是$\Omega$的一个有限划分，且$P(B_n)>0.$则有
$$
P(A)=\sum_nP(B_n)P(A|B_n)
$$

贝叶斯公式:

设 ${ B_n}$是$\Omega$的一个有限划分，且$P(B_n)>0.$如果$P(A)>0$,则
$$
P(B_k|A)=\frac{P(B_k)P(A|B_k)}{\sum_{n}P(B_n)P(A|B_n)},k=1,2,\ldots,n.
$$

条件期望,条件方差，全期望公式

设$(X,Y)$是连续型随机变量，其联合概率密度函数$f(x,y)$。对固定的$y$若满足$f_Y(y)>0$,给定$Y=y$时，$X$的条件概率定义为：
$$
f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}
$$

称作在$Y=y$的条件下，随机变量$X$的条件概率密度.称
$$
E[X|Y=y]=\int_{-\infty}^{+\infty}xf_{X|Y}(x|y)dx
$$
为在$Y=y$的条件下，随机变量$X$的条件期望 .

称
$$
Var(X|Y=y)=E{[X-E(X|Y=y)]^2|Y=y}
$$
为在 $Y=y$ 的条件下，随机变量$X$的条件方差.

Property

(全期望公式)$E(X)=E[E(X|Y)], E[g(X)]=E{E[g(X)|Y]}$.
$E(a|Y)=a$
$E(aX+bZ|Y)=aE(X|Y)+bE(Z|Y)$
如果$X\geq0$, 则$E(X|Y)\geq0$.
如果$X$与}$Y$独立,则$E(X|Y)=E(X)$.
$E[Xg(Y)|Y]=g(Y)E[X|Y]$.特别地,$E[g(Y)|Y]=g(Y)$.
$E[X|Y,g(Y)]=E(X|Y).$
$E[X-E(X|Y)]^{2}\leq E[X-g(Y)]^{2}$

$E(X|Y)$是所有用$g(Y)$来近似$X$中效果最好的.
$D(X|Y=y)=E(X^{2}|Y=y)-[E(X|Y=y)]^{2}.$
(全方差定理)$Var(X)=E[Var(X|Y)]+Var[E(X|Y)].$

随机过程

设$( \Omega , \mathcal{F} , P)$是概率空间 , $T$是一参数集$T\subseteq\mathbb{R}$。若对每一个$t\in T, X( t)$ 是 $( \Omega , \mathcal{F} , P)$上的随机变量，则称随机变量族${ X( t) , t\in T}$为随机过程 .

Mark

观察随机过程的两种视角：对于随机过程${X(t,\omega)|(t,\omega)\in T\times \Omega}$
- 固定$\omega\in \Omega$,$X$是定义在$T$上的样本函数，称作实现；
- 固定$t\in T$,$X$是定义在$\Omega$上的随机变量，称作状态；

有限维分布(簇)，Kolmogorov定理,数字特征

对任意有限个$t_1,\cdots,t_n\in T$,定义随机过程的$n$维分布函数 $F_{t_1,\cdots,t_n}(x_1,\cdots,x_n)\colon$
$$
F_{t_1,\cdots,t_n}(x_1,\cdots,x_n)=P(X(t_1)\leq x_1,\cdots,X(t_n)\leq x_n).
$$
随机过程的所有的一维分布，二维分布，$\cdots,n$维分布等的全体
$$
{F_{t_1,\cdots,t_n}(x_1,\cdots,x_n),t_1,\cdots,t_n\in T,n\geq1}
$$
称为随机过程${ X( t) , t\in T}$ 的有限维分布簇 .

Property

对称性：对$( 1, 2, \cdots , n)$的任一排列$( j_1, j_2, \cdots , j_n) $，有
$$
\begin{aligned}&F_{t_{j_1},\cdots,t_{j_n}}(x_{j_1},\cdots,x_{j_n})\&=\quad P(X(t_{j_1})\leq x_{j_1},\cdots,X(t_{j_n})\leq x_{j_n})\&=\quad P(X(t_1)\leq x_{t_1},\cdots,X(t_n)\leq x_{t_n})\&=\quad F_{t_1,\cdots,t_n}(x_1,\cdots,x_n).\end{aligned}
$$
相容性：对$m<n$,有
$$
F_{t_1,\cdots,t_m,t_{m+1},\cdots t_n}(x_1,\cdots,x_m,\infty,\cdots,\infty)=F_{t_1,\cdots,t_m}(x_1,\cdots,x_m).
$$

Kolmogorov定理描述如下事实：

设分布函数族${F_{t_1,\cdots,t_n}(x_1,\cdots,x_n),t_1,\cdots,t_n\in T,n\geq1 }$ 满足上述的对称性和相容性，则必存在一个随机过程${X(t),t\in T}$使
$$
{F_{t_1,\cdots,t_n}(x_1,\cdots,x_n),t_1,\cdots,t_n\in T,n\geq1}
$$
恰好是${X(t),t\in T}$的有限维分布簇.

有限维分布簇完整地描述了随机过程的概率性质，但是实际过程中几乎无法得到完整的分布簇，因此采用数字特征描述随机过程也许是更好的办法.

均值函数：$\mu_X(t)=E[X(t)],t\in T$
方差函数：$Var_X(t)=E[(X-\mu_X(t))^2],t\in T$
协方差函数：$\gamma_X(s,t)=E[(X(s)-\mu_X(s))(X(t)-\mu_X(t))]$
自相关函数：$R_X(s,t)=E[X(s)X(t)]=\gamma_X(s,t)+\mu_X(s)\mu_X(t)$

严平稳过程，宽平稳过程

如果随机过程${X(t),t\in T}$对任意的$t_1,\cdots,t_n\in T$和任意的$h\textbf{, }$ 均满足$(X(t_1+h),\cdots,X(t_n+h))$与 $( X( t_1) , \cdots , X( t_n) )$具有相同的联合分布，记为
$$
(X(t_1+h),\cdots,X(t_n+h))\stackrel{d}{=}(X(t_1),\cdots,X(t_n))
$$
则称${ X( t) , t\in T}$为严平稳过程 .

如果随机过程$X(t)$的所有二阶矩都存在，并且均值函数$E[X(t)]=\mu$,协方差函数$\gamma(t,s)$只与时间差$t-s$有关，则
称${ X( t) , t\in T}$为宽平稳过程.

Mark

严平稳过程的有限维分布关于时间平移不变；
严平稳过程的主要性质和选取的起始点无关而和变量之间的距离有关；
宽平稳过程的协方差函数可以记为$\gamma(t)$,因为$$\gamma(s,t+s)=\gamma(0,t),s,t\in\mathbb{R}$$;
宽平稳过程：$\gamma(t)$是偶函数，$\gamma(0)=Var_X(t),|\gamma(\tau)\le\gamma(0)|$,且具有非负定性，也即对于任意时刻$t_k$和实
数$a_k, k = 1, 2, … ,N$，有
$$
\begin{aligned}\sum_{i=1}^N\sum_{j=1}^Na_ia_j\gamma(t_i-t_j)\geq0.\end{aligned}
$$

证明
$\mathbf A=(a_1,a_2,...,a_n),\mathbf Z=(E[t_1]-\mu,E[t_2]-\mu,...,E[t_n]-\mu)$ $0\le Var(\mathbf A^T \mathbf Z)=A^TE[ZZ^T]A=\sum_{i=1}^N\sum_{j=1}^Na_ia_j\gamma(t_i-t_j)$

遍历性

设${X(t),-\infty<t<\infty}$为一平稳过程，若
$$
\overline{X}=\lim_{T\to\infty}\frac1{2T}\int_{-T}^TX(t)dt=\mu
$$

或当参数空间为$T=\mathbb{Z}$时，
$$
\overline{X}=\lim_{N\to\infty}\frac1{2N+1}\sum_{k=-N}^NX(k)=\mu
$$
则称${ X( t) , t\in T}$的均值有遍历性 .

若
$$
\overline{\gamma}(\tau)=\lim_{T\to\infty}\frac{1}{2T}\int_{-T}^T(X(t)-\mu)(X(t+\tau)-\mu)dt=\gamma(\tau)
$$
或当参数空间为$T=\mathbb{Z}$时，
$$
\overline{\gamma}(\tau)=\lim_{N\to\infty}\frac1{2N+1}\sum_{k=-N}^N(X(k)-\mu)(X(k+\tau)-\mu)=\gamma(\tau)
$$
则称${ X( t) , t\in T}$的协方差有遍历性.

若随机过程的均值和协方差函数都具有遍历性，则称此随机过程有遍历性.

均值遍历性定理：

设${X(t),-\infty<t<\infty}$是平稳过程，其协方差函数为$\gamma(\tau)$,则$X(t)$的均值有遍历性的充分必要条件是
$$
\lim_{T\to\infty}\frac1T\int_0^{2T}\left(1-\frac\tau{2T}\right)\gamma(\tau)d\tau=0.
$$
设${X(t),t=0,\pm1,\pm2,\cdots}$是平稳序列，其协方差函数为$\gamma ( \tau ) \textbf{, 则 }X( t)$的均值有遍历性的充分必要条件是
$$
\lim_{N\to\infty}\frac{1}{N}\sum_{\tau=0}^{N-1}\gamma(\tau)=0.
$$

Proof

首先，计算$\overline{X}$的均值和方差。记
$$
\overline{X}T=\frac{1}{2T}\int{-T}^TX\left(t\right)\mathrm{d}t
$$
则有
$$
E(\overline{X})=E(\lim_{T\to\infty}\overline{X}T)=\lim{T\to\infty}E(\overline{X}T)=\lim{T\to\infty}\frac{1}{2T}\int_{-T}^TE[X(t)]\mathrm{d}t=\mu
$$
进而
$$
\begin{aligned}Var(\overline{X})&=E{[\overline{X}-E(\overline{X})]^2}\&=E_t^|\lim_{t\to\infty}\left[\frac1{2T}\int_{-T}^T(X(t)-\mu)\mathrm{d}t\right]^2\&=\lim_{T\to\infty}\frac1{4T^2}E^|\int_{-T}^T[X(t)-\mu]\mathrm{d}t|^2\&=\lim_{T\to\infty}\frac1{4T^2}\int_{-T}^T\int_{-T}^TE\langle[X(t)-\mu][X(s)-\mu]\rangle\mathrm{d}t\mathrm{d}s\&=\lim_{T\to\infty}\frac1{4T^2}\int_{-T}^T\int_{-T}^T\gamma(t-s)\mathrm{d}t\mathrm{d}s\end{aligned}
$$
在上述积分中，做变换$$\begin{cases}\tau=t-s\v=t+s\end{cases}$$,则变换的 Jacobi 行列式值为：$$J=\left|\begin{array}{cc}1&-1\1&1\end{array}\right|^{-1}=\dfrac{1}{2}$$
积分区域变换为顶点分别在$\tau$轴和$\upsilon$ 轴上的菱形区域
$$
D:-2T\leqslant\tau\pm v\leqslant2T
$$
由于$\gamma(\tau)$是偶函数，故
$$
\begin{aligned}\operatorname*{lim}{T\to\infty}\frac{1}{4T^{2}}\cdot\frac{1}{2}\int\int{D}\gamma(\tau):\mathrm{d}\tau\mathrm{d}v&=\lim_{T\to\infty}\frac{1}{8T^{2}}\int_{-2T}^{2T}\gamma(\tau):\mathrm{d}\tau\int_{-(2T-|\tau|)}^{2T-|\tau|}:\mathrm{d}v\&=\lim_{T\to\infty}\frac{1}{4T^{2}}\int_{-2T}^{2T}\gamma(\tau):(2T-|\tau|):\mathrm{d}\tau\&=\lim_{T\to\infty}\frac{1}{2T^{2}}\int_{0}^{2T}\gamma(\tau):(2T-\tau):\mathrm{d}\tau\&=\lim_{T\to\infty}\frac{1}{T}\int_{0}^{2T}\gamma(\tau)\Big|:1-\frac{\tau}{2T}\Big|:\mathrm{d}\tau\end{aligned}
$$

推论

若$\int_{-\infty}^{\infty}|\gamma(\tau)|d\tau<\infty$,则均值遍历性定理成立.
对于平稳序列而言,若$\gamma(\tau)\to0(\tau\to\infty)$,则均值遍历性定理成立.

平稳增量，独立增量

如果对任何$t_1,t_2,\cdots t_n\in T,t_1<t_2<\cdots<t_n$随机变量$X(t_2)-X(t_1),\cdots,X(t_n)-X(t_{n-1})$是相互独立的，则称${ X( t) , t\in T}$ 为独立增量过程 .
如果对任何 $t_1, t_2$,有 $X( t_1+ h) - X( t_1) \overset {d}{\operatorname* { \operatorname* { = } } }X( t_2+ h) - X( t_2) $,则称${X(t),t\in T}$为是平稳增量过程.

有独立增量和平稳增量的过程称为平稳独立增量过程.

Property

假设${X(t),t\geq0}$是一个独立增量过程，$X(0)=0.$则$X(t)$具有平稳增量的充分必要条件是：其特征函数具有可乘性，即
$$
\psi_{X(t+s)}(a)=\psi_{X(t)}(a)\psi_{X(s)}(a)
$$
设${ X( t) , t\geq 0}$是一个平稳独立增量过程 , $X( 0) = 0.$
- $\mu(t)=mt.$
- $Var(t)=\sigma^2 t$
- $\gamma ( s, t) = \sigma ^2\min ( s, t) .$其中$m,\sigma^2$均是常数。
proof:注意到
$$
\mu(s+t)=E[X(s+t)-X(s)]+E[X(s)]=\mu(t)+\mu(s)\
Var(s+t)=Var[X(s+t)-X(s)]+Var[X(s)]=Var(s)+Var(t)
$$
这是Cauchy方程，简单验证连续性即可；

其次,假设$s<t$，
$$
\begin{aligned}
\gamma(s,t)&=E[X(s)X(t)]-E[X(s)]E[X(t)]\
&=E[X(s)]E[X(t-s)]+E[X^2(s)]-E[X(s)]E[X(t)]\
&=\sigma^2 s
\end{aligned}
$$

Remark

Borel-Cantelli第二引理证明？

应用随机过程：测度论预备知识

$\sigma$代数，可测空间，随机事件

Mark

Property

生成$\sigma$代数, Borel $\sigma$代数

Mark

Example

概率空间，事件，概率

Property

事件的极限

Mark

Property

随机变量，分布函数

Property

边缘分布，联合密度

Mark

示性函数

Riemann-Stieltjes积分

Property

数学期望,方差，原点矩

Mark

矩母函数

Property

特征函数

Property

收敛性

几乎必然收敛

Mark

依概率收敛

Mark

Property

$p$​​次平均收敛

依分布收敛

Mark

独立性

Property

条件概率，全概率公式，Bayes公式

条件期望,条件方差，全期望公式

Property

随机过程

Mark

有限维分布(簇)，Kolmogorov定理,数字特征

Property

严平稳过程，宽平稳过程

Mark

遍历性

Proof

推论

平稳增量，独立增量

Property

Remark

$p$次平均收敛