这篇文章是 UncleBob 的统计推断第五章笔记.
由于是从 LATEX 格式转化而来,可能发生了一些排版上的改变.
Chapter 5. 随机样本的性质
5.1 随机样本的基本概念
定义 [随机样本 random sample]
如果 X1,X2,…,Xn 相互独立,且具有相同的 pdf 或 pmf f(x),则称 X1,X2,…,Xn 为总体为 f(x) 的大小为 n 的随机样本,称 n 为样本量.
在统计中,通常 f(x)=f(x∣θ),其中 θ∈Θ 未知,要利用样本 X1,…,Xn 估计未知参数 θ.
样本的联合分布为
f(X1,X2,…,Xn∣θ)=i=1∏nf(Xi∣θ)=ℓ(θ∣X1,X2,…,Xn),
它是关于未知参数 θ 的推断依据.
定义 [总体与样本]
把所有要考察的某种特性的对象的全体称为总体(population),其中的每个对象称为个体;从总体中所抽取的部分个体称为总体的一个样本.
定义
若 f(⋅∣θ) 的形式已知,称 {f(x∣θ):θ∈Θ} 为参数总体;
反之,若形式未知,称为非参数总体,例如 {f(x):X∼f(x),∫∣x∣f(x)dx<∞};
若部分信息已知,称为半参数总体,例如 {f(x):f(x) 关于 μ 对称,μ∈R}.
统计和概率推理的基本逻辑:对于 X∼F(x,θ) 总体,θ 已知时,我们可以计算 Pθ{∣x∣>ϵ};θ 未知,我们抽样 X1,…,Xn,利用这些样本去推断 θ 得到 θ^,通过了解 F(x,θ^) 分析总体.
注:有限总体中的不放回抽样得到的样本不一定是随机样本.
5.2 随机变量之和
定义 [统计量]
设 X1,X2,…,Xn 为随机样本,若 T=T(X1,X2,…,Xn) 是定义在样本空间 Xn 上的随机变量或随机向量,则称 T 为样本的统计量.
注:
- 统计量只与样本有关,不包含任何未知参数;
- 统计量的分布称为抽样分布. 抽样分布可以包含未知参数,也可以不包含.
例
设 X1,…,Xn∼i.i.d.N(μ,1),μ∈R 未知,那么:
- X1+⋯+Xn,n1∑i=1nXi,max{X1,…,Xn},min{X1,…,Xn},X1 都是统计量,X1−μ 不是统计量;
- 统计量的分布:X1+⋯+Xn∼N(nμ,n) 与 μ 有关,X1−X2∼N(0,2) 与 μ 无关.
定义 [常用统计量]
常见的统计量包括:
- 样本均值:Xˉ=n1i=1∑nXi;
- 样本方差:s2=n−11i=1∑n(Xi−Xˉ)2;
- 样本标准差:s=s2.
性质
对于任意样本 X1,…,Xn,有:
- amini=1∑n(Xi−a)2=i=1∑n(Xi−Xˉ)2;
- amini=1∑n∣Xi−a∣=i=1∑n∣Xi−median(X)∣;
- (n−1)s2=i=1∑n(Xi−Xˉ)2=i=1∑nXi2−nXˉ2.
引理
设 X1,X2,…,Xn 为总体中抽取的随机样本,函数 g 满足 E[g(X)],E[g2(X)],Var(g(X)) 均存在,则
E(i=1∑ng(Xi))=nE[g(X1)],Var(i=1∑ng(Xi))=nVar[g(X1)].
定理
设 X1,X2,…,Xn 为总体中抽取的随机样本,且 E[X1]=μ,Var(X1)=σ2<+∞,则:
- E[Xˉ]=μ;
- Var(Xˉ)=nσ2;
- E[s2]=σ2.
例
若 X1,…,Xn∼i.i.d.N(μ,σ2),其中 μ∈R,σ2>0,则
i=1∑nXi∼N(nμ,nσ2).
例
若 X1,…,Xn∼i.i.d.Bernoulli(p),0<p<1,则
i=1∑nXi∼Binomial(n,p).
例
若 X1,…,Xn∼i.i.d.Cauchy(μ,1),则
i=1∑nXi∼Cauchy(μ,1).
例
若
f(x∣θ)=c(θ)h(x)exp{j=1∑kwj(θ)tj(x)},
且 X1,…,Xn∼i.i.d.f(x∣θ),则统计量
T(X1,…,Xn)=(i=1∑nt1(Xi),…,i=1∑ntk(Xi))
仍服从同一指数分布族.
例
X1,X2,…,Xn 为随机样本,E∣X1∣<+∞,0<E∣X1∣2<+∞,由 CLT,
nσ2∑i=1nXi−nμdN(0,1),
因此 n 足够大时,∑i=1nXi≃N(nμ,nσ2).
5.3 正态总体下的抽样分布
性质
设 X1,…,Xn∼i.i.d.N(μ,σ2),其中 μ∈R,σ2>0 均未知,则
- Xˉ=n1∑i=1nXi∼N(μ,nσ2);
- (n−1)s2/σ2∼χn−12;
- Xˉ 与 s2 独立.
引理
设 Xi∼N(μi,σi2) 相互独立,i=1,2,…,n.对任意常数 aij,brj,i=1,…,k,r=1,…,m,定义
Ui=j=1∑naijXj,Vr=j=1∑nbrjXj.
则有:
- 随机变量 Ui 与 Vr 独立当且仅当 Cov(Ui,Vr)=∑j=1naijbrjσj2=0;
- 随机向量 (U1,…,Uk) 与 (V1,…,Vm) 独立当且仅当对所有 i,r 都有 Ui 与 Vr 独立.
定义 [学生氏分布(Student’s t-distribution)]
设 X∼N(0,1),Y∼χn2,且 X 与 Y 独立,则定义
t=Y/nX∼tn.
性质[t 分布的性质]
设 t∼tn,则
- 当 n=1 时,E(t) 不存在;
- 当 n>1 时,E(t)=0;
- 当 n>2 时,Var(t)=n−2n.
定义 [F 分布]
设 X∼χn2,Y∼χm2,且 X 与 Y 独立,则
F=Y/mX/n∼Fn,m.
性质[F 分布的性质]
- 若 X∼Fp,q,则 X1∼Fq,p;
- 若 T∼tq,则 T2∼F1,q,且当 q 充分大时近似 χ12;
- 若 X∼Fp,q,则
1+qpXqpX∼Beta(2p,2q).
5.4 次序统计量
次序统计量的性质
定义 [次序统计量]
设 X1,…,Xn 定义在 (Ω,F,P) 上,对任意 ω∈Ω,将 X1(ω),…,Xn(ω) 从小到大排列,记为
X(1)(ω)≤⋯≤X(n)(ω).
则 X(1),…,X(n) 仅依赖于 X1,…,Xn 且为统计量,称 X(i) 为第 i 个次序统计量. 特别的,
X(1)=min{X1,…,Xn},X(n)=max{X1,…,Xn}.
中位数
median(X1,…,Xn)=⎩⎨⎧X(2n+1),21(X(2n)+X(2n+1)),n 为奇数;n 为偶数.
定理[离散情形]
设随机样本 X1,…,Xn 取自 pmf 为 fX(xi)=pi=P(X=xi) 的离散总体,x1<x2<… 为可能取值.令
Pi=P(X≤xi)=p1+⋯+pi,P0=0.
则第 j 个次序统计量的分布为
P{X(j)=xi}=k=j∑n(kn)Pik(1−Pi)n−k−k=j∑n(kn)Pi−1k(1−Pi−1)n−k.
证明.
{X(j)≤xi} 意味着 {Xm≤xi} 这 n 个事件中至少有 j 个发生,而 P{Xk≤xi}=Pi,因此
P({X(j)≤xi})=k=j∑nP({Xm≤xi}恰好有j个发生)=k=j∑n(kn)Pik(1−Pi)n−k,
从而
P({X(j)=xi})=P({X(j)≤xi})−P({X(j)≤xi−1})=k=j∑n(kn)Pik(1−Pi)n−k−k=j∑n(kn)Pi−1k(1−Pi−1)n−k.
定理[连续情形]
设随机样本 X1,…,Xn 取自 pdf f(x),cdf F(x) 的连续总体,则
fX(j)(x)=(j−1)!(n−j)!n![F(x)]j−1[1−F(x)]n−jf(x),x∈R.
证明.
P({X(j)≤x})=k=j∑nP({Xm≤x}恰好有j个发生),
从而
Fx(j)(x)=k=j∑n(kn)[F(x)]k[1−F(x)]n−k,∀x∈R.
进而
fX(j)(x)=dxdFx(j)(x)=(j−1)!(n−j)!n![F(x)]j−1[1−F(x)]n−jf(x),x∈R.
定理[联合分布]
设 X1,…,Xn 为连续总体样本,1≤i≤j≤n,则
fX(i),X(j)(s,t)=⎩⎨⎧0,(i−1)!(j−i−1)!(n−j)!n![F(s)]i−1f(s)[F(t)−F(s)]j−i−1f(t)[1−F(t)]n−j,s>t;s≤t.
特别地,当 i=1,j=n 时,
fX(1),X(n)(s,t)=⎩⎨⎧0,n(n−1)f(s)f(t)[F(t)−F(s)]n−2,s>t;s≤t.
进一步地,(X(1),X(2),…,X(n)) 的联合 pdf 为
fX(1),…,X(n)(t1,…,tn)={n!∏i=1nf(ti),0,t1≤t2≤⋯≤tn;otherwise.
定义 [中程数与极差]
中程数 V=21(X(1)+X(n)),极差 R=X(n)−X(1).
分位数变换与矩的性质
定义 [分位数与分位数函数]
设 X1,…,Xn∼i.i.d.F(x),记 F−1(q) 表示 F 的 q 分位数点(即 F(F−1(q))=q).
性质[分位数变换性质]
设 X1,…,Xn∼i.i.d.F(x),对应次序统计量为 X(1),…,X(n);U1,…,Un∼i.i.d.U(0,1),对应次序统计量为 U(1),…,U(n),则
- F(Xi)∼U(0,1);
- F−1(Ui)=dXi;
- F(X(i))=U(i),F−1(U(i))=X(i);
- (U(1),…,U(n))=d(F(X(1)),…,F(X(n))).
性质[Cauchy 次序统计量矩的性质]
若 X1,…,Xn∼i.i.d.Cauchy(μ,σ2),则
- E∣X(1)∣=E∣X(n)∣=+∞;
- 当 n≥3 时,E∣X(2)∣<+∞,E∣X(n−1)∣<+∞;
- 当奇数 n 足够大时,存在 l>0 使得 E∣X(2n+1)∣l<+∞.
定义 [随机大于]
若对所有 x∈R,有 FX(x)≤FY(x),则称 X 随机大于 Y. 等价地,P(X≥t)≥P(Y≥t) 对所有 t 成立.
5.5 收敛的概念
定义
设随机变量序列 X1,X2,… 定义在概率空间 (Ω,F,P) 上,则有:
- 依概率收敛:XnPX,当 n→∞ 时,若对任意 ϵ>0,有
n→+∞limP(∣Xn−X∣>ϵ)=0;
- 几乎必然收敛:Xna.s.X,当 n→∞ 时,若
P({ω:n→+∞limXn(ω)=X(ω)})=1;
- 依分布收敛:XndX,当 n→∞ 时,若
FXn(x)→FX(x),∀x∈C(FX);
- Lp 收敛:XnLpX,当 n→∞ 时,若
E∣Xn−X∣p→0;
- 完全收敛:Xnc.c.X,当 n→∞ 时,若对任意 ϵ>0,
n=1∑∞P(∣Xn−X∣>ϵ)<+∞.
定理[大数定律]
设 X1,X2,… 为 i.i.d. 随机变量,且 E∣X1∣<+∞,记 EX1=μ,则
n→∞limn1i=1∑nXi=EX1=μ,a.s.
定理[中心极限定理 (CLT)]
设 X1,X2,… 为 i.i.d. 随机变量,EX1=μ,0<Var(X1)=σ2<+∞,则
n→+∞limP(σn(Xˉ−μ)≤x)=Φ(x),
其中 Φ(x) 为 Z∼N(0,1) 的分布函数.
定理[Slutsky 定理]
设随机变量列 XndX,YnPc(常数),则:
- Xn+YndX+c;
- XnYndcX;
- 当 c=0 时,YnXndcX.
定理[连续映射定理 (CMT)]
设 g:Rk→Rm 在集合 C 上连续,且 P(X∈C)=1.则:
- 若 Xna.s.X,则 g(Xn)a.s.g(X);
- 若 XnPX,则 g(Xn)Pg(X);
- 若 XndX,则 g(Xn)dg(X).
例
若 ZndZ∼N(0,1),则 Zn2dZ2∼χ12.
例
若 (Xn,Yn)d(Z1,Z2),其中 Z1,Z2 独立且 Zi∼N(0,1),则
YnXndZ2Z1∼Cauchy(0,1).
例
若 XnPX,A∈Rm×k,B∈Rk×k 为实矩阵且 B 对称,则
AXnPAX,XnTBXnPXTBX.
若将收敛改为 a.s.,结论仍成立. 若 XndX,则亦有 AXndAX.
定理[Cramér-Wold]
设 {Xn} 为 d 维随机向量序列,则
XndX⟺∀c∈Rd,cTXndcTX.
定理[多元 CLT]
设 Y1,…,Yn 为 i.i.d. 的 d 维随机向量,μ=EY1,Σ=E[(Y1−μ)(Y1−μ)T],则
n1i=1∑n(Yi−μ)dNd(0,Σ).
若 Σ=PTΛP,定义 Σ1/2=Λ1/2P,则
nΣ−1/2(Yˉ−μ)dNd(0,Id).
定义 [随机 O(⋅) 与 o(⋅)]
设 {Xn} 为随机变量列:
- 若对任意 δ>0,存在 M>0,使得 P(∣Xn∣≥M)≤δ,则称 Xn 依概率有界,记为 Xn=Op(1);
- 若 XnP0,则记为 Xn=op(1);
- 对两列随机变量 {Un} 与 {Vn},若 VnUn=Op(1),则记 Un=Op(Vn);若 VnUnP0,则记 Un=op(Vn).
性质
若 Xn=Op(1),Yn=op(1),则 XnYn=op(1),且 Xn+Yn=Op(1).
定理
若 XndX,则 Xn=Op(1);若 XnPX,则 XndX.
例
设 X1,X2,…,Xn 为 i.i.d. 随机变量,EX1=μ1,Var(X1)=σ2<+∞. 根据 SLLN,Xˉa.s.μ,从而 Xˉ−μ=op(1);根据 CLT,n(Xˉ−μ)/σdZ∼N(0,1),那么 n(Xˉ−μ)=Op(1),Xˉ−μ=Op(n1).
例
- Xn∼Binomial(n,n1),则 XndX∼Poisson(1);
- Xn∼Binomial(n,p),则 np(1−p)Xn−npdN(0,1);
- Xn∼Beta(n1,n1),则 XndX∼Bernoulli(1,21).
定理[一阶 Δ 方法]
若随机变量列 Yn 满足
n(Yn−θ)dN(0,σ2),
函数 g(x) 在 θ 处可导且 g′(θ)=0,则
n(g(Yn)−g(θ))dN(0,σ2[g′(θ)]2).
证明.
由于 g(t) 在 t=θ 可微,
t→θlimt−θg(t)−g(θ)=g′(θ),
即
t→θlimt−θg(t)−g(θ)−(t−θ)g′(θ)=0,
t−θg(t)−g(θ)−(t−θ)g′(θ)=o(1),
也就是
g(t)−g(θ)−(t−θ)g′(θ)=o(1)(t−θ),t→θ.
用 Yn 代替 t,得到
g(Yn)−g(θ)=(Yn−θ)g′(θ)+op(1)(Yn−θ),t→θ,
由 Slutsky 定理,
n(g(Yn)−g(θ))=n(Yn−θ)g′(θ)+op(1)(Yn−θ)ndN(0,σ2[g′(θ)]2).
定理[二阶 Δ 方法]
若随机变量列 Yn 满足
n(Yn−θ)dN(0,σ2),
且函数 g(x) 满足 g′(θ)=0,g′′(θ)=0,则
n(g(Yn)−g(θ))d21σ2g′′(θ)χ12.
定理[高阶 Δ 方法]
若随机变量列 Yn 满足
n(Yn−θ)dN(0,σ2),
且函数 g(x) 满足 g(i)(θ)=0,1≤i≤m−1,g(m)(θ)=0,则
nm/2(g(Yn)−g(θ))dm!1g(m)(θ)σm[N(0,1)]m.
例
X1,…,Xn∼i.i.d.Bernoulli(1,p),0<p<1,那么 n(Xˉ−p)dN(0,p(1−p)). 令 g(p)=1−pp(称为优比),运用一阶 Δ 方法,可知
n(g(Xˉ)−g(p))dN(0,p(1−p)⋅(1−p)41),
即
1−XˉXˉ−1−pp∼N(0,n(1−p)3p).
5.6 生成随机样本
定理
若 X∼F(x),且 Y=F(X),则 Y∼U(0,1). 据此,令 Y1,…,Yn 为 i.i.d. U(0,1) 随机变量,设
Xi=F−1(Yi),i=1,2,…,n,
则 F−1(Y1),…,F−1(Yn) 为 i.i.d.,且服从分布 F(x).
例
希望产生随机样本来自总体 Y∼Exp(β),即 pdf 为
f(x∣β)=β1exp{−βx}I{x≥0}.
考虑 u=F(y)=1−e−y/β,y≥0,那么 y=−βlog(1−u),于是先产生 U1,…,Un∼i.i.d.U(0,1),就有 −βlog(1−U1),…,−βlog(1−Un)∼i.i.d.Exp(β).
定理[离散型随机变量的反函数法]
设 Y 为离散随机变量,其分布律为
P(Y=yj)=pj,j=1,2,…,k.
记 FY(y)=P(Y≤y). 产生 U∼U(0,1),若满足
FY(yj)<U≤FY(yj+1),
则令 Y=yj+1,其中 j=1,2,…,k−1.重复该过程可得到独立样本.
定理[正态随机变量的 Box-Muller 算法]
若 U1,…,Un 为 i.i.d. U(0,1) 随机变量,则有
n⋅121∑i=1nUi−2ndN(0,1).
例如取 n=12,则 ∑i=112Ui−6≈N(0,1).
此外,若 U1,U2 为独立的 U(0,1) 随机变量,令
R=−2logU1,θ=2πU2,
则
X=Rcosθ,Y=Rsinθ
独立且 X,Y∼N(0,1).
定理[取舍法]
若 f(x) 为概率密度函数,且有界,取常数 M≥supxf(x). 产生独立随机变量 V∼U(a,b) 与 U∼U(0,M),若满足
U≤f(V),
则令 X=V;否则,返回上一步重新生成.
重复此过程即可得到 X1,X2,…,独立且服从分布 f(x).