序
这是北航概率与数理模型概要。
目录
概率论的基本概念
-
随机试验 E
- 可以在相同条件下重复进行
- 每次试验结果可能不止一个,但能事先确定试验的所有可能结果
- 每次试验之前无法确定哪一个结果会出现
-
样本空间:随机试验 E 的所有可能结果组成的集合 S
-
样本点:S 中的每个元素,即 E 的每个结果,称为样本点
-
随机事件:随机试验 E 的样本空间 S 的可列的子集,简称事件
- 此子集的一个样本点发生时,表示事件发生
- 基本事件:由一个样本点组成的事件
- 必然事件:样本空间 S 是自身的子集,它必然发生
- 不可能事件:∅ 不包含任何样本点,不可能发生
-
事件运算
- 包含:A⊂B
- 相等:A=B
- 和事件:A∪B
- 积事件:A∩B
- 差事件:A−B
- 互斥事件:A∩B=∅
- 对立事件:A∪BandA∩B=∅,事件 A 的对立事件记为 Aˉ
- 交换律
- 结合律
- 分配律
- 德摩根律
- 更多……
频率 概率
古典概型
P(A)=nk
条件概率
P(B∣A)=P(A)P(AB)
为事件 A 发生的条件下事件 B 发生的条件概率
P(A)P(B∣A)=P(AB)
P(ABC)=P(C∣AB)P(B∣A)P(A)
P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bn)P(Bn)
P(Bi∣A)=P(A)P(A∣Bi)P(Bi)
独立性
P(AB)=P(A)P(B)
则称事件 A, B 相互独立
P(B∣A)=P(B)
随机变量及其分布
离散型随机变量及其分布
P{X=xk}=pk
亦可以用表格表示
-
0 - 1 分布
P{X=k}=pk(1−p)1−k
-
伯努利试验:试验 E 只有 A 和 Aˉ 两个结果
-
n 重伯努利试验:将 E 独立重复试验 n 次
-
二项分布 X∼B(n,p)
P{X=k}=Cnkpk(1−p)1−k
-
泊松分布 X∼π(λ)
P{X=k}=k!λke−λ
- 泊松分布近似二项分布:取参数 λ=np,得到
Cnkpk(1−p)1−k≈k!λke−λ
随机变量的分布函数
F(x)=P{X≤x},−∞<x<∞
称为 X 的分布函数
-
P{x1<x≤x2}=F(x2)−F(x1)
-
P{x>a}=1−F(a)
-
P{x=a}=F(a)−F(a−0)
-
F(x) 不减
-
0≤F(x)≤1
-
F(−∞)=0,F(∞)=1
-
F(x) 右连续
连续型随机变量及其概率密度
F(x)=∫−∞xf(t)dt
则称 X 是连续型随机变量,f(x) 称为 X 的概率密度函数
-
f(x)≥0
-
∫−∞∞f(x)dx=1
-
P{x1<X≤x2}=F(x2)−F(x1)=∫x1x2f(x)dx
-
若 f(x) 在 x 处连续,则 F′(x)=f(x)
-
均匀分布 X∼U(a,b)
f(x)=⎩⎨⎧b−a1,a<x<b0,else
-
指数分布 X∼E(λ)
f(x)={λe−λx,x>00,else
-
正态分布 X∼N(μ,σ2)
f(x)=2πσ1e−2σ2(x−μ)2,−∞<x<∞
-
μ=0,σ=1 时称为标准正态分布,分布函数记为 Φ(x)
- 引理:若随机变量 X∼N(μ,σ2),则
Z=σX−μ∼N(0,1)
-
X 服从正态分布,则 X 的线性函数 Y=aX+b 也服从正态分布
-
定理:设随机变量 X 有概率密度 fX(x),−∞<x<∞,设 g(x) 处处可导且恒有 g′(x)>0(或 g′(x)<0),则 Y=g(X) 是随机变量,且
fY(y)={fX[h(y)]∣h′(y)∣,α<y<β0,else
其中 α,β 是 y 的定义域下界和上界,h(y) 是 g(x) 的反函数
多维随机变量及其分布
联合分布
F(x,y)=P{X≤x,Y≤y}
边缘分布
FX(x)=P{X≤x}=F(x,∞)FY(y)=P{Y≤y}=F(∞,y)
-
二维离散型随机变量
P{X=xi}=j=1∑∞pijP{Y=yj}=i=1∑∞pij
-
二维连续型随机变量
fX(x)=∫−∞∞f(x,y)dyfY(y)=∫−∞∞f(x,y)dx
条件分布
FX∣Y(x∣y)=P{X≤x∣Y=y}
-
二维离散型随机变量
P{X=xi∣Y=yj}=P{Y=yj}P{X=xi,Y=yj}=p⋅jpijP{Y=yj∣X=xi}=P{X=xi}P{X=xi,Y=yj}=pi⋅pij
-
二维连续型随机变量
- 条件概率密度:在 Y=y 的条件下 X 的条件概率密度为
fX∣Y=fY(y)f(x,y)
相互独立的随机变量
-
F(x,y) 是联合分布函数,FX(x) 和 FY(y) 是边缘分布函数,若对于所有 x,y 满足
FX(x)FY(y)=F(x,y)
则 X 和 Y 相互独立
P{X=xi,Y=yi}=P{X=xi}P{Y=yi}
f(x,y)=fX(x)fY(y)
两个随机变量的函数的分布
fX+Y(z)=∫−∞∞f(z−y,y)dyor∫−∞∞f(x,z−x)dx
fX+Y(z)=∫−∞∞fX(z−y)fY(y)dyor∫−∞∞fX(x)fY(z−x)dx
这被称为 fX 和 fY 的卷积公式,记为 fX∗fY
FY(y)=P{Y≤y}=P{FX(X)≤y}=P{X≤FX−1(y)}=FX[FX−1(y)]=y
随机变量的数字特征
数学期望
-
数学期望记为 E(X)
-
离散型随机变量
E(X)=k=1∑∞xkpk
E(X)=∫−∞∞xf(x)dx
-
X∼B(n,p)E(X)=np
-
X∼N(μ,σ2)E(X)=μ
-
X∼π(λ)E(X)=λ
-
X∼U(a,b)E(X)=2a+b
-
X∼E(λ)E(X)=λ1
-
性质
-
C 是常数,E(C)=0
-
E(aX+C)=aE(X)+C
-
E(X+Y)=E(X)+E(Y),可以推广到任意有限个随机变量的和的情况
-
X,Y 相互独立,则 E(XY)=E(X)E(Y),此条逆命题不成立
-
定理
- 若 X 是离散型随机变量,g(x) 是连续函数,Y=g(X) 则
E(Y)=k=1∑∞g(xk)pk
- 若 X 是连续型随机变量,g(x) 是连续函数,Y=g(X) 则
E(Y)=∫−∞∞g(x)f(x)dx
- 若 Z=g(X,Y),X,Y 的概率密度是 f(x,y),则
E(Z)=∫−∞∞∫−∞∞g(x,y)f(x,y)dxdy
-
琴生不等式
E(f(X))≥f(E(X))
对应函数的弦在弧的上方
E(f(X))≤f(E(X))
对应函数的弦在弧的下方
方差
D(X)=E{[X−E(X)]2}=E(X2)−E2(X)
σ(X)=D(X)
X∗=σX−μ
为 X 的标准化变量,数学期望为 0,方差为 1
协方差 相关系数
Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
展开得
Cov(X,Y)=E(XY)−E(X)E(Y)
ρXY=D(X)D(Y)Cov(X,Y)
-
定理
-
∣ρXY∣≤1
-
ρXY=0 称为 X,Y 不相关
- 对于二维正态随机变量 (X,Y) 而言,X,Y 不相关和 X,Y 相互独立等价
-
二维正态分布
f(x,y)=2πσ1σ21−ρ21exp{2(1−ρ2)−1[σ12(x−μ1)2−2ρσ1σ2(x−μ1)(y−μ2)+σ22(y−μ2)2]}
- 记作 (X,Y)∼N(μ1,σ1;μ2,σ2;ρ)
- 两个边缘分布都是正态分布
-
E(X)=μ1,D(X)=σ12 以及 E(Y)=μ2,D(Y)=σ22
- 在二维正态分布下,相关系数 ρ=0 表示 X,Y 相互独立
矩 协方差矩阵
E(Xk),k=1,2,...
大数定律 中心极限定理
辛钦大数定律
-
设 X1,X2,... 是相互独立且服从同一分布 (独立同分布) 的随机变量序列,具有数学期望 E(Xk)=μ(k=1,2,...),则对于任意 ε>0,有
n→∞limP{n1k=1∑nXk−μ<ε}=1
即 Xˉ 依概率收敛到数学期望 μ
Xˉ⟶Pμ
伯努利大数定律
n→∞limP{nfA−p<ε}=1
表面在试验次数足够多的时候,频率趋近于概率
中心极限定理
-
独立同分布的中心极限定理:设随机变量序列 X1,X2,...,Xn 相互独立且服从同一分布,具有数学期望 E(Xk)=μ 和方差 D(Xk)=σ2,则
Xˉ∼N(μ,nσ2)ori=1∑nXi∼N(nμ,nσ2)
P{np(1−p)X−np≤x}≈Φ(x)
其中 Φ(x) 表示标准正态分布的分布函数
样本及抽样分布
随机样本
-
总体:试验的全部可能的观察值称为总体
-
个体:每一个可能的观察值
-
容量:总体中包含的个体的个数
-
简单随机样本:设 X 是具有分布函数 F 的随机变量,若 X1,X2,...,Xn 是独立同分布(F)的随机变量序列,则称此随机变量序列为从总体 X 得到的容量为 n 的简单随机样本,简称为样本。它们的观察值 x1,x2,...,xn 称为样本值
抽样分布
-
统计量:X1,X2,...,Xn 是样本,g(X1,X2,...,Xn) 是一个不含未知参数的函数,则其是一统计量
-
样本均值
Xˉ=n1i=1∑nXi
S2=n−11i=1∑n(Xi−Xˉ)2
注意,样本方差与总体方差不同
S=S2
Ak=n1i=1∑nXik,k∈N∗
Bk=n1i=1∑n(Xi−Xˉ)k,k∈N∗
χ2 分布
-
设 X1,X2,...,Xn 来自总体 X∼N(0,1),则
χ2=X12+X22+...+Xn2
服从自由度为 n 的 χ2 分布,记作 χ2∼χ2(n)
-
概率密度
-
性质
-
χ12∼χ2(n),χ22∼χ2(m),且 χ12,χ22 相互独立,则
χ12+χ22∼χ2(n+m)
E(χ2)=n
D(χ2)=2n
t 分布
-
设 X∼N(0,1),Y∼χ2(n),且 X,Y 相互独立,则
t=Y/nX
服从自由度为 n 的 t 分布,记作 t∼t(n)
-
概率密度
-
性质
-
t1−α(n)=−tα(n) (类似正态分布的对称性)
F 分布
-
设 X∼χ2(n1),Y∼χ2(n2),且 X,Y 相互独立,则
F=Y/n2X/n1
服从自由度为 (n1,n2) 的 F 分布,记作 F∼F(n1,n2)
-
概率密度
-
性质
-
F1∼F(n2,n1)
-
F1−α(n1,n2)=Fα(n2,n1)1
正态总体的样本均值和方差的分布
-
任意分布的总体 X 的均值为 μ,方差为 σ2,X1,X2,...,Xn 来自 X 的一个样本,Xˉ 是样本均值,S2 是样本方差,则
E(Xˉ)=μD(Xˉ)=nσ2E(S2)=σ2D(S2)=n−12σ4
-
定理(X1,X2,...,Xn 来自正态总体)
-
Xˉ 和 S2 相互独立
-
Xi 是来自正态总体 N(μ,σ2) 的样本,Xˉ 是样本均值,则
Xi−Xˉ∼N(0,nn−1σ2)
-
σ2(n−1)S2∼χ2(n−1)
因此 D(σ2(n−1)S2)=σ2(n−1)D(S2)=2n−2⟶D(S2)=n−12σ4
-
S/nXˉ−μ∼t(n−1)
-
定理(X1,X2,...,Xn 与 Y1,Y2,...,Yn 来自两个正态总体,且二者相互独立)
-
σ12/σ22S12/S22∼F(n1−1,n2−1)
参数估计
点估计
矩估计法
最大似然估计法
-
总体 X 是离散型,P{X=x}=p(x;θ)(θ 未知)
- 似然函数 L(θ) 为:
L(θ)=i=1∏np(xi;θ)
-
总体 X 是连续型,,概率密度为 f(x;θ)
- 似然函数 L(θ) 为:
L(θ)=i=1∏nf(xi;θ)
-
使似然函数最大,得到 θ^ 称为最大似然估计值,即
dθdL(θ)=0
或
dθdlnL(θ)=0
第二种称为对数似然方程
估计量的评选标准
E(θ^)=θ
则称为无偏估计量
D(θ^1)≤D(θ^2)
则称 θ^1 比 θ^2 更有效
区间估计
P{θ<θ<θˉ}≥1−α
则称区间 (θ,θˉ) 为置信水平 1−α 的置信区间,二者称为置信下限和置信上限
-
方法
- 对于样本 X1,X2,...,Xn,寻找一个函数 g(X1,X2,...,Xn;θ),使得:
-
g 含有待估参数 θ
- 不含其余参数
- 分布已知且不依赖于待估参数
这样的 g 被称为枢轴量
- 给定显著性水平 α,定出常数 a,b 使得
P{a<g(X1,X2,...,Xn;θ)<b}=1−α
- 由 a<g(X1,X2,...,Xn;θ)<b 解出 θ<θ<θˉ,得到置信区间 (θ,θˉ)
-
正态总体的区间估计
| 待估参数 |
其他参数条件 |
枢轴量 |
| μ |
σ2 已知 |
Z=σ/nXˉ−μ∼N(0,1) |
| μ |
σ2 未知 |
t=S/nXˉ−μ∼t(n−1) |
| σ2 |
μ 未知 |
χ2=σ2(n−1)S2∼χ2(n−1) |
| μ1−μ2 |
σ12,σ22 已知 |
Z=n1σ12+n2σ22(Xˉ−Yˉ)−(μ1−μ2)∼N(0,1) |
| μ1−μ2 |
σ12=σ22=σ2 未知 |
t=SWn11+n21(Xˉ−Yˉ)−(μ1−μ2)∼t(n1+n2−2),其中 SW2=n1+n2−2(n1−1)S12+(n2−1)S22 |
| σ22σ12 |
μ1,μ2 未知 |
F=σ12/σ22S12/S22∼F(n1−1,n2−1) |
假设检验
-
零假设 H0:认为假设的场景不发生的一种假设,例如需要检验“产量提升了”这一假设,零假设就是“产量没有提升”
-
备择假设 H1:零假设被拒绝之后可选的假设
-
拒绝域:当检验统计量取某个区域 C 中的值的时候,拒绝 H0,则称区域 C 为拒绝域。拒绝域的边界称为临界点
-
第 I 类错误:当 H0 实际为真时,拒绝之,称为“弃真”
-
第 II 类错误:当 H0 实际为假时,接受之,称为“取伪”
-
显著性检验:只对犯第 I 类错误的概率加以限制,而不考虑犯第 II 类错误的概率的检验
-
双边假设检验
H0:μ=μ0,H1:μ=μ0
H0:μ≤μ0,H1:μ>μ0
H0:μ≥μ0,H1:μ<μ0
-
方法
- 提出零假设和备择假设
- 给定显著性水平 α 和样本容量 n
- 确定检验统计量
- 按 P{RejectH0when it’s true}≤α 求出拒绝域
- 取样,根据样本观察值做出决策
-
正态总体的假设检验
| 待检验假设 |
其他参数条件 |
检验统计量 |
| μ 与 μ0 大小关系 |
σ2 已知 |
Z=σ/nXˉ−μ∼N(0,1) |
| μ 与 μ0 大小关系 |
σ2 未知 |
t=S/nXˉ−μ∼t(n−1) |
| σ2 与 σ02 大小关系 |
μ 未知 |
χ2=σ2(n−1)S2∼χ2(n−1) |
| μ1−μ2 与 δ 大小关系 |
σ12,σ22 已知 |
Z=n1σ12+n2σ22(Xˉ−Yˉ)−δ∼N(0,1) |
| μ1−μ2 与 δ 大小关系 |
σ12=σ22=σ2 未知 |
t=SWn11+n21(Xˉ−Yˉ)−δ∼t(n1+n2−2),其中 SW2=n1+n2−2(n1−1)S12+(n2−1)S22 |
| σ12 与 σ22 大小关系 |
μ1,μ2 未知 |
F=S22S12∼F(n1−1,n2−1) |
参数估计与假设检验的关系
-
在显著性水平 α 下,对待估参数 θ 得到一个置信度为 1−α 的置信区间 (θ,θˉ)(单侧置信区间同理),今在同样显著性水平下有一假设 H0:θ=θ0,那么
ifθ0∈(θ,θˉ)thenAcceptH0else thenRejectH0endif
方差分析 回归分析
单因素试验的方差分析
-
试验指标:试验中要考察的指标
-
因素:影响试验指标的条件
-
水平:因素所在的状态
-
单因素试验:在一项试验的过程中,只有一个因素在改变
-
多因素试验:在一项试验的过程中,多于一个因素在改变
-
方差分析的任务
- 检验 s 个总体 N(μ1,σ2),...,N(μs,σ2) 的均值是否相等,即
H0:μ0=μ1=...=μs
- 作出未知参数 μ1,...,μs,σ2 的估计
-
设因素 A 有 s 个水平 A1,...,As,在第 j 个水平下,进行了 nj 次独立试验。
| 水平 |
结果1 |
结果2 |
… |
结果 nj |
样本均值 |
总体均值 |
| Aj |
X1,j |
X2,j |
… |
Xnj,j |
Xˉ⋅,j |
μj |
μ=∑j=1snj1j=1∑snjμj
δj=μj−μ
且有 n1δ1+...+nsδs=0
⎩⎨⎧Xi,j=μ+δj+εi,jεi,j∼N(0,σ2),各 εi,j 独立i=1,2,...,nj,j=1,2,...,sj=1∑snjδj=0
H0:δ1=δ2=...=δs=0
-
三个方差
- 总偏差平方和 ST:每个观察值与数据总平均的差值的平方和
ST=j=1∑si=1∑nj(Xi,j−Xˉ)2
其中 Xˉ=n1∑j=1s∑i=1njXi,j,即全部观察值的平均值
- 误差平方和 SE:水平 Aj 下,样本观察值与样本均值的差值的平方和
SE=j=1∑si=1∑nj(Xi,j−Xˉ⋅,j)2
- 效应平方和 SA:水平 Aj 下,样本均值与数据总平均的差值的平方和
SA=j=1∑si=1∑nj(Xˉ⋅,j−Xˉ)2
-
ST=SE+SA
-
统计特性
-
σ2SE∼χ2(n−s)
-
E(σ2SE)=n−s⟶E(n−sSE)=σ2,即 n−sSE 是 σ2 的无偏估计
-
H0 为真时,σ2SA∼χ2(s−1)⟶E(s−1SA)=σ2
-
H0 的拒绝域:显著性水平 α 下
F=SE/(n−s)SA/(s−1)≥Fα(s−1,n−s)
双因素试验的方差分析
好累啊,我不想写了。
回归分析
不考说是。