统计推断笔记-第五章

这篇文章是 UncleBob 的统计推断第五章笔记.

由于是从 LaTeX\LaTeX 格式转化而来,可能发生了一些排版上的改变.

Chapter 5. 随机样本的性质

5.1 随机样本的基本概念

定义 [随机样本 random sample]
如果 X1,X2,,XnX_1, X_2, \dots, X_n 相互独立,且具有相同的 pdf 或 pmf f(x)f(x),则称 X1,X2,,XnX_1, X_2, \dots, X_n 为总体为 f(x)f(x) 的大小为 nn 的随机样本,称 nn 为样本量.

在统计中,通常 f(x)=f(xθ)f(x) = f(x \mid \theta),其中 θΘ\theta \in \Theta 未知,要利用样本 X1,,XnX_1, \dots, X_n 估计未知参数 θ\theta.

样本的联合分布为

f(X1,X2,,Xnθ)=i=1nf(Xiθ)=(θX1,X2,,Xn), f(X_1, X_2, \dots, X_n \mid \theta) = \prod_{i=1}^n f(X_i \mid \theta) = \ell(\theta \mid X_1, X_2, \dots, X_n),

它是关于未知参数 θ\theta 的推断依据.

定义 [总体与样本]
把所有要考察的某种特性的对象的全体称为总体(population),其中的每个对象称为个体;从总体中所抽取的部分个体称为总体的一个样本.

定义
f(θ)f(\cdot \mid \theta) 的形式已知,称 {f(xθ):θΘ}\{f(x \mid \theta) : \theta \in \Theta\} 为参数总体;
反之,若形式未知,称为非参数总体,例如 {f(x):Xf(x),xf(x)dx<}\{f(x) : X \sim f(x), \int |x|f(x)\,dx < \infty\}
若部分信息已知,称为半参数总体,例如 {f(x):f(x) 关于 μ 对称,μR}\{f(x) : f(x)\text{ 关于 }\mu\text{ 对称}, \mu \in \mathbb{R}\}.

统计和概率推理的基本逻辑:对于 XF(x,θ)X\sim F(x,\theta) 总体,θ\theta 已知时,我们可以计算 Pθ{x>ϵ}P_\theta\{|x|>\epsilon\}θ\theta 未知,我们抽样 X1,,XnX_1,\dots,X_n,利用这些样本去推断 θ\theta 得到 θ^\hat\theta,通过了解 F(x,θ^)F(x,\hat\theta) 分析总体.

注:有限总体中的不放回抽样得到的样本不一定是随机样本.

5.2 随机变量之和

定义 [统计量]
X1,X2,,XnX_1, X_2, \dots, X_n 为随机样本,若 T=T(X1,X2,,Xn)T = T(X_1, X_2, \dots, X_n) 是定义在样本空间 Xn\mathcal{X}^n 上的随机变量或随机向量,则称 TT 为样本的统计量.

  • 统计量只与样本有关,不包含任何未知参数;
  • 统计量的分布称为抽样分布. 抽样分布可以包含未知参数,也可以不包含.


X1,,Xni.i.d.N(μ,1)X_1, \dots, X_n \stackrel{\mathrm{i.i.d.}}{\sim} N(\mu, 1)μR\mu\in\mathbb{R} 未知,那么:

  • X1++XnX_1+ \dots+ X_n1ni=1nXi\frac{1}{n}\sum_{i=1}^nX_imax{X1,,Xn}\max\{X_1, \dots, X_n\}min{X1,,Xn}\min\{X_1, \dots, X_n\}X1X_1 都是统计量,X1μX_1-\mu 不是统计量;
  • 统计量的分布:X1++XnN(nμ,n)X_1+ \dots+ X_n \sim N(n\mu,n)μ\mu 有关,X1X2N(0,2)X_1-X_2 \sim N(0,2)μ\mu 无关.

定义 [常用统计量]
常见的统计量包括:

  • 样本均值:Xˉ=1ni=1nXi\displaystyle \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i
  • 样本方差:s2=1n1i=1n(XiXˉ)2\displaystyle s^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2
  • 样本标准差:s=s2s = \sqrt{s^2}.

性质
对于任意样本 X1,,XnX_1, \dots, X_n,有:

  • minai=1n(Xia)2=i=1n(XiXˉ)2;\displaystyle \min_a \sum_{i=1}^n (X_i - a)^2 = \sum_{i=1}^n (X_i - \bar{X})^2;
  • minai=1nXia=i=1nXimedian(X);\displaystyle \min_a \sum_{i=1}^n |X_i - a| = \sum_{i=1}^n |X_i - \mathrm{median}(X)|;
  • (n1)s2=i=1n(XiXˉ)2=i=1nXi2nXˉ2.\displaystyle (n - 1)s^2 = \sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n X_i^2 - n\bar{X}^2.

引理
X1,X2,,XnX_1, X_2, \dots, X_n 为总体中抽取的随机样本,函数 gg 满足 E[g(X)],E[g2(X)],Var(g(X))E[g(X)],\,E[g^2(X)],\,\mathrm{Var}(g(X)) 均存在,则

E(i=1ng(Xi))=nE[g(X1)],Var(i=1ng(Xi))=nVar[g(X1)]. E\left(\sum_{i=1}^n g(X_i)\right) = nE[g(X_1)], \qquad \mathrm{Var}\left(\sum_{i=1}^n g(X_i)\right) = n\mathrm{Var}[g(X_1)].

定理
X1,X2,,XnX_1, X_2, \dots, X_n 为总体中抽取的随机样本,且 E[X1]=μE[X_1] = \muVar(X1)=σ2<+\mathrm{Var}(X_1) = \sigma^2 < +\infty,则:

  • E[Xˉ]=μE[\bar{X}] = \mu
  • Var(Xˉ)=σ2n\mathrm{Var}(\bar{X}) = \dfrac{\sigma^2}{n}
  • E[s2]=σ2E[s^2] = \sigma^2.


X1,,Xni.i.d.N(μ,σ2)X_1, \dots, X_n \stackrel{\mathrm{i.i.d.}}{\sim} N(\mu, \sigma^2),其中 μR\mu \in \mathbb{R}σ2>0\sigma^2 > 0,则

i=1nXiN(nμ,nσ2). \sum_{i=1}^n X_i \sim N(n\mu, n\sigma^2).


X1,,Xni.i.d.Bernoulli(p)X_1, \dots, X_n \stackrel{\mathrm{i.i.d.}}{\sim} \mathrm{Bernoulli}(p)0<p<10 < p < 1,则

i=1nXiBinomial(n,p). \sum_{i=1}^n X_i \sim \mathrm{Binomial}(n, p).


X1,,Xni.i.d.Cauchy(μ,1)X_1, \dots, X_n \stackrel{\mathrm{i.i.d.}}{\sim} \mathrm{Cauchy}(\mu, 1),则

i=1nXiCauchy(μ,1). \sum_{i=1}^n X_i \sim \mathrm{Cauchy}(\mu, 1).


f(xθ)=c(θ)h(x)exp{j=1kwj(θ)tj(x)}, f(x \mid \theta) = c(\theta)h(x) \exp\left\{\sum_{j=1}^k w_j(\theta)t_j(x)\right\},

X1,,Xni.i.d.f(xθ)X_1, \dots, X_n \stackrel{\mathrm{i.i.d.}}{\sim} f(x \mid \theta),则统计量

T(X1,,Xn)=(i=1nt1(Xi),,i=1ntk(Xi)) T(X_1, \dots, X_n) = \biggl(\sum_{i=1}^n t_1(X_i),\, \dots,\, \sum_{i=1}^n t_k(X_i)\biggr)

仍服从同一指数分布族.


X1,X2,,XnX_1, X_2, \dots, X_n 为随机样本,EX1<+E|X_1|<+\infty0<EX12<+0<E|X_1|^2<+\infty,由 CLT,

i=1nXinμnσ2dN(0,1),\frac{\sum_{i=1}^n X_i-n\mu}{\sqrt{n\sigma^2}}\xrightarrow{d}N(0,1),

因此 nn 足够大时,i=1nXiN(nμ,nσ2)\sum_{i=1}^n X_i\simeq N(n\mu,n\sigma^2).

5.3 正态总体下的抽样分布

性质
X1,,Xni.i.d.N(μ,σ2)X_1,\dots,X_n\stackrel{\mathrm{i.i.d.}}{\sim} N(\mu,\sigma^2),其中 μR\mu\in\mathbb{R}σ2>0\sigma^2>0 均未知,则

  • Xˉ=1ni=1nXiN(μ,σ2n)\bar X=\frac{1}{n}\sum_{i=1}^n X_i \sim N\left(\mu,\frac{\sigma^2}{n}\right)
  • (n1)s2/σ2χn12(n-1)s^2/\sigma^2\sim\chi_{n-1}^2
  • Xˉ\bar Xs2s^2 独立.

引理
XiN(μi,σi2)X_i\sim N(\mu_i,\sigma_i^2) 相互独立,i=1,2,,ni=1,2,\dots,n.对任意常数 aij,brja_{ij},b_{rj}i=1,,ki=1,\dots,kr=1,,mr=1,\dots,m,定义

Ui=j=1naijXj,Vr=j=1nbrjXj. U_i=\sum_{j=1}^n a_{ij}X_j,\quad V_r=\sum_{j=1}^n b_{rj}X_j.

则有:

  • 随机变量 UiU_iVrV_r 独立当且仅当 Cov(Ui,Vr)=j=1naijbrjσj2=0\mathrm{Cov}(U_i,V_r)=\sum_{j=1}^n a_{ij}b_{rj}\sigma_j^2=0
  • 随机向量 (U1,,Uk)(U_1,\dots,U_k)(V1,,Vm)(V_1,\dots,V_m) 独立当且仅当对所有 i,ri,r 都有 UiU_iVrV_r 独立.

定义 [学生氏分布(Student’s tt-distribution)]
XN(0,1)X\sim N(0,1)Yχn2Y\sim \chi_n^2,且 XXYY 独立,则定义

t=XY/ntn. t=\frac{X}{\sqrt{Y/n}}\sim t_n.

性质[tt 分布的性质]
ttnt\sim t_n,则

  • n=1n=1 时,E(t)E(t) 不存在;
  • n>1n>1 时,E(t)=0E(t)=0
  • n>2n>2 时,Var(t)=nn2Var(t)=\dfrac{n}{n-2}.

定义 [FF 分布]
Xχn2X\sim \chi_n^2Yχm2Y\sim \chi_m^2,且 XXYY 独立,则

F=X/nY/mFn,m. F=\frac{X/n}{Y/m}\sim F_{n,m}.

性质[FF 分布的性质]

  • XFp,qX\sim F_{p,q},则 1XFq,p\dfrac{1}{X}\sim F_{q,p}
  • TtqT\sim t_q,则 T2F1,qT^2\sim F_{1,q},且当 qq 充分大时近似 χ12\chi_1^2
  • XFp,qX\sim F_{p,q},则

pqX1+pqXBeta(p2,q2).\frac{\tfrac{p}{q}X}{1+\tfrac{p}{q}X}\sim \mathrm{Beta}\left(\frac{p}{2},\frac{q}{2}\right).

5.4 次序统计量

次序统计量的性质

定义 [次序统计量]
X1,,XnX_1,\dots,X_n 定义在 (Ω,F,P)(\Omega,\mathcal{F},P) 上,对任意 ωΩ\omega\in\Omega,将 X1(ω),,Xn(ω)X_1(\omega),\dots,X_n(\omega) 从小到大排列,记为

X(1)(ω)X(n)(ω). X_{(1)}(\omega)\leq\dots\leq X_{(n)}(\omega).

X(1),,X(n)X_{(1)},\dots,X_{(n)} 仅依赖于 X1,,XnX_1,\dots,X_n 且为统计量,称 X(i)X_{(i)} 为第 ii 个次序统计量. 特别的,

X(1)=min{X1,,Xn},X(n)=max{X1,,Xn}. X_{(1)}=\min\{X_1,\dots,X_n\},\quad X_{(n)}=\max\{X_1,\dots,X_n\}.

中位数

median(X1,,Xn)={X(n+12),n 为奇数;12(X(n2)+X(n2+1)),n 为偶数. \mathrm{median}(X_1,\dots,X_n)= \begin{cases} X_{(\frac{n+1}{2})}, & n\text{ 为奇数};\\[6pt] \frac{1}{2}\big(X_{(\frac{n}{2})}+X_{(\frac{n}{2}+1)}\big), & n\text{ 为偶数}. \end{cases}

定理[离散情形]
设随机样本 X1,,XnX_1,\dots,X_n 取自 pmf 为 fX(xi)=pi=P(X=xi)f_X(x_i)=p_i=P(X=x_i) 的离散总体,x1<x2<x_1<x_2<\dots 为可能取值.令

Pi=P(Xxi)=p1++pi,P0=0. P_i=P(X\le x_i)=p_1+\dots+p_i,\quad P_0=0.

则第 jj 个次序统计量的分布为

P{X(j)=xi}=k=jn(nk)Pik(1Pi)nkk=jn(nk)Pi1k(1Pi1)nk. P\{X_{(j)}=x_i\} =\sum_{k=j}^n {n\choose k}P_i^k(1-P_i)^{n-k} -\sum_{k=j}^n {n\choose k}P_{i-1}^k(1-P_{i-1})^{n-k}.

证明.
{X(j)xi}\{X_{(j)}\leq x_i\} 意味着 {Xmxi}\{X_m\leq x_i\}nn 个事件中至少有 jj 个发生,而 P{Xkxi}=PiP\{X_k\leq x_i\}=P_i,因此

P({X(j)xi})=k=jnP({Xmxi}恰好有j个发生)=k=jn(nk)Pik(1Pi)nk,P\left(\{X_{(j)}\leq x_i\}\right)=\sum_{k=j}^n P\left(\{X_m\leq x_i\}\text{恰好有} j \text{个发生}\right)=\sum_{k=j}^n{n\choose k}P_i^k(1-P_i)^{n-k},

从而

P({X(j)=xi})=P({X(j)xi})P({X(j)xi1})=k=jn(nk)Pik(1Pi)nkk=jn(nk)Pi1k(1Pi1)nk.\begin{aligned} P\left(\{X_{(j)}= x_i\}\right)&=P\left(\{X_{(j)}\leq x_i\}\right)-P\left(\{X_{(j)}\leq x_{i-1}\}\right)\\ &=\sum_{k=j}^n {n\choose k}P_i^k(1-P_i)^{n-k} -\sum_{k=j}^n {n\choose k}P_{i-1}^k(1-P_{i-1})^{n-k}. \end{aligned}

定理[连续情形]
设随机样本 X1,,XnX_1,\dots,X_n 取自 pdf f(x)f(x),cdf F(x)F(x) 的连续总体,则

fX(j)(x)=n!(j1)!(nj)![F(x)]j1[1F(x)]njf(x),xR. f_{X_{(j)}}(x) =\frac{n!}{(j-1)!(n-j)!}\,[F(x)]^{j-1}[1-F(x)]^{n-j}f(x),\quad x\in\mathbb{R}.

证明.

P({X(j)x})=k=jnP({Xmx}恰好有j个发生),P\left(\{X_{(j)}\leq x\}\right)=\sum_{k=j}^n P\left(\{X_m\leq x\}\text{恰好有} j \text{个发生}\right),

从而

Fx(j)(x)=k=jn(nk)[F(x)]k[1F(x)]nk,xR.F_{x_{(j)}}(x)=\sum_{k=j}^n{n\choose k}[F(x)]^k[1-F(x)]^{n-k},\quad \forall x\in\mathbb{R}.

进而

fX(j)(x)=ddxFx(j)(x)=n!(j1)!(nj)![F(x)]j1[1F(x)]njf(x),xR.f_{X_{(j)}}(x)=\frac{d}{dx}F_{x_{(j)}}(x)=\frac{n!}{(j-1)!(n-j)!}\,[F(x)]^{j-1}[1-F(x)]^{n-j}f(x),\quad x\in\mathbb{R}.

定理[联合分布]
X1,,XnX_1,\dots,X_n 为连续总体样本,1ijn1\le i\le j\le n,则

fX(i),X(j)(s,t)={0,s>t;n!(i1)!(ji1)!(nj)![F(s)]i1f(s)[F(t)F(s)]ji1f(t)[1F(t)]nj,st. f_{X_{(i)},X_{(j)}}(s,t)= \begin{cases} 0, & s>t;\\[6pt] \dfrac{n!}{(i-1)!(j-i-1)!(n-j)!}\,[F(s)]^{i-1}f(s)[F(t)-F(s)]^{j-i-1}f(t)[1-F(t)]^{n-j}, & s\le t. \end{cases}

特别地,当 i=1,j=ni=1,j=n 时,

fX(1),X(n)(s,t)={0,s>t;n(n1)f(s)f(t)[F(t)F(s)]n2,st. f_{X_{(1)},X_{(n)}}(s,t)= \begin{cases} 0, & s>t;\\[6pt] n(n-1)f(s)f(t)[F(t)-F(s)]^{n-2}, & s\le t. \end{cases}

进一步地,(X(1),X(2),,X(n))(X_{(1)},X_{(2)},\dots,X_{(n)}) 的联合 pdf 为

fX(1),,X(n)(t1,,tn)={n!i=1nf(ti),t1t2tn;0,otherwise. f_{X_{(1)},\dots,X_{(n)}}(t_1,\dots,t_n)= \begin{cases} n! \prod_{i=1}^n f(t_i), & t_1\le t_2\le\dots\le t_n;\\[4pt] 0, & \text{otherwise}. \end{cases}

定义 [中程数与极差]
中程数 V=12(X(1)+X(n))V=\dfrac{1}{2}(X_{(1)}+X_{(n)}),极差 R=X(n)X(1)R=X_{(n)}-X_{(1)}.

分位数变换与矩的性质

定义 [分位数与分位数函数]
X1,,Xni.i.d.F(x)X_1,\dots,X_n\stackrel{\mathrm{i.i.d.}}{\sim} F(x),记 F1(q)F^{-1}(q) 表示 FFqq 分位数点(即 F(F1(q))=qF(F^{-1}(q))=q).

性质[分位数变换性质]
X1,,Xni.i.d.F(x)X_1,\dots,X_n\stackrel{\mathrm{i.i.d.}}{\sim} F(x),对应次序统计量为 X(1),,X(n)X_{(1)},\dots,X_{(n)}U1,,Uni.i.d.U(0,1)U_1,\dots,U_n\stackrel{\mathrm{i.i.d.}}{\sim} U(0,1),对应次序统计量为 U(1),,U(n)U_{(1)},\dots,U_{(n)},则

  • F(Xi)U(0,1)F(X_i)\sim U(0,1)
  • F1(Ui)=dXiF^{-1}(U_i)\overset{d}{=}X_i
  • F(X(i))=U(i)F(X_{(i)})=U_{(i)}F1(U(i))=X(i)F^{-1}(U_{(i)})=X_{(i)}
  • (U(1),,U(n))=d(F(X(1)),,F(X(n)))(U_{(1)},\dots,U_{(n)})\overset{d}{=}(F(X_{(1)}),\dots,F(X_{(n)})).

性质[Cauchy 次序统计量矩的性质]
X1,,Xni.i.d.Cauchy(μ,σ2)X_1,\dots,X_n\stackrel{\mathrm{i.i.d.}}{\sim} \mathrm{Cauchy}(\mu,\sigma^2),则

  • EX(1)=EX(n)=+E|X_{(1)}|=E|X_{(n)}|=+\infty
  • n3n\ge3 时,EX(2)<+E|X_{(2)}|<+\inftyEX(n1)<+E|X_{(n-1)}|<+\infty
  • 当奇数 nn 足够大时,存在 l>0l>0 使得 EX(n+12)l<+E|X_{(\frac{n+1}{2})}|^l<+\infty.

定义 [随机大于]
若对所有 xRx\in\mathbb{R},有 FX(x)FY(x)F_X(x)\le F_Y(x),则称 XX 随机大于 YY. 等价地,P(Xt)P(Yt)P(X\ge t)\ge P(Y\ge t) 对所有 tt 成立.

5.5 收敛的概念

定义
设随机变量序列 X1,X2,X_1, X_2, \dots 定义在概率空间 (Ω,F,P)(\Omega, \mathcal{F}, P) 上,则有:

  • 依概率收敛:XnPXX_n \xrightarrow{P} X,当 nn \to \infty 时,若对任意 ϵ>0\epsilon > 0,有

limn+P(XnX>ϵ)=0\lim_{n \to +\infty} P\left( \left| X_n - X \right| > \epsilon \right) = 0;

  • 几乎必然收敛:Xna.s.XX_n \xrightarrow{a.s.} X,当 nn \to \infty 时,若

P({ω:limn+Xn(ω)=X(ω)})=1P\left( \left\{ \omega : \lim_{n \to +\infty} X_n(\omega) = X(\omega) \right\} \right) = 1;

  • 依分布收敛:XndXX_n \xrightarrow{d} X,当 nn \to \infty 时,若

FXn(x)FX(x),xC(FX)F_{X_n}(x) \to F_X(x), \quad \forall x \in C(F_X);

  • LpL^p 收敛:XnLpXX_n \xrightarrow{L^p} X,当 nn \to \infty 时,若

EXnXp0E \left| X_n - X \right|^p \to 0;

  • 完全收敛:Xnc.c.XX_n \xrightarrow{c.c.} X,当 nn \to \infty 时,若对任意 ϵ>0\epsilon > 0

n=1P(XnX>ϵ)<+.\sum_{n=1}^{\infty} P\left( \left| X_n - X \right| > \epsilon \right) < +\infty.

定理[大数定律]
X1,X2,X_1, X_2, \dots 为 i.i.d. 随机变量,且 EX1<+E |X_1| < +\infty,记 EX1=μE X_1 = \mu,则

limn1ni=1nXi=EX1=μ,a.s.\lim_{n \to \infty} \frac{1}{n} \sum_{i=1}^n X_i = E X_1 = \mu, \quad a.s.

定理[中心极限定理 (CLT)]
X1,X2,X_1, X_2, \dots 为 i.i.d. 随机变量,EX1=μE X_1 = \mu0<Var(X1)=σ2<+0 < \mathrm{Var}(X_1) = \sigma^2 < +\infty,则

limn+P(n(Xˉμ)σx)=Φ(x),\lim_{n \to +\infty} P\left( \frac{\sqrt{n}(\bar{X} - \mu)}{\sigma} \le x \right) = \Phi(x),

其中 Φ(x)\Phi(x)ZN(0,1)Z \sim N(0,1) 的分布函数.

定理[Slutsky 定理]
设随机变量列 XndXX_n \xrightarrow{d} XYnPcY_n \xrightarrow{P} c(常数),则:

  • Xn+YndX+cX_n + Y_n \xrightarrow{d} X + c
  • XnYndcXX_n Y_n \xrightarrow{d} cX
  • c0c \neq 0 时,XnYndXc\dfrac{X_n}{Y_n} \xrightarrow{d} \dfrac{X}{c}.

定理[连续映射定理 (CMT)]
g:RkRmg:\mathbb{R}^k \to \mathbb{R}^m 在集合 CC 上连续,且 P(XC)=1P(X \in C) = 1.则:

  • Xna.s.XX_n \xrightarrow{a.s.} X,则 g(Xn)a.s.g(X)g(X_n) \xrightarrow{a.s.} g(X)
  • XnPXX_n \xrightarrow{P} X,则 g(Xn)Pg(X)g(X_n) \xrightarrow{P} g(X)
  • XndXX_n \xrightarrow{d} X,则 g(Xn)dg(X)g(X_n) \xrightarrow{d} g(X).


ZndZN(0,1)Z_n \xrightarrow{d} Z \sim N(0,1),则 Zn2dZ2χ12Z_n^2 \xrightarrow{d} Z^2 \sim \chi_1^2.


(Xn,Yn)d(Z1,Z2)(X_n, Y_n) \xrightarrow{d} (Z_1, Z_2),其中 Z1,Z2Z_1, Z_2 独立且 ZiN(0,1)Z_i \sim N(0,1),则

XnYndZ1Z2Cauchy(0,1).\dfrac{X_n}{Y_n} \xrightarrow{d} \dfrac{Z_1}{Z_2} \sim \mathrm{Cauchy}(0,1).


XnPXX_n \xrightarrow{P} XARm×kA \in \mathbb{R}^{m \times k}BRk×kB \in \mathbb{R}^{k \times k} 为实矩阵且 BB 对称,则

AXnPAX,XnTBXnPXTBX.AX_n \xrightarrow{P} AX, \qquad X_n^{\mathrm{T}} B X_n \xrightarrow{P} X^{\mathrm{T}} B X.

若将收敛改为 a.s.a.s.,结论仍成立. 若 XndXX_n \xrightarrow{d} X,则亦有 AXndAXAX_n \xrightarrow{d} AX.

定理[Cramér-Wold]
{Xn}\{X_n\}dd 维随机向量序列,则

XndX    cRd,  cTXndcTX.X_n \xrightarrow{d} X \iff \forall c \in \mathbb{R}^d, \; c^{\mathrm{T}} X_n \xrightarrow{d} c^{\mathrm{T}} X.

定理[多元 CLT]
Y1,,YnY_1, \dots, Y_n 为 i.i.d. 的 dd 维随机向量,μ=EY1\mu = E Y_1Σ=E[(Y1μ)(Y1μ)T]\Sigma = E \big[(Y_1 - \mu)(Y_1 - \mu)^{\mathrm{T}}\big],则

1ni=1n(Yiμ)dNd(0,Σ).\frac{1}{\sqrt{n}} \sum_{i=1}^n (Y_i - \mu) \xrightarrow{d} N_d(0, \Sigma).

Σ=PTΛP\Sigma = P^{\mathrm{T}} \Lambda P,定义 Σ1/2=Λ1/2P\Sigma^{1/2} = \Lambda^{1/2} P,则

nΣ1/2(Yˉμ)dNd(0,Id).\sqrt{n}\, \Sigma^{-1/2}(\bar{Y} - \mu) \xrightarrow{d} N_d(0, I_d).

定义 [随机 O()O(\cdot)o()o(\cdot)]
{Xn}\{X_n\} 为随机变量列:

  • 若对任意 δ>0\delta > 0,存在 M>0M > 0,使得 P(XnM)δP\left( |X_n| \ge M \right) \le \delta,则称 XnX_n 依概率有界,记为 Xn=Op(1)X_n = O_p(1)
  • XnP0X_n \xrightarrow{P} 0,则记为 Xn=op(1)X_n = o_p(1)
  • 对两列随机变量 {Un}\{U_n\}{Vn}\{V_n\},若 UnVn=Op(1)\dfrac{U_n}{V_n} = O_p(1),则记 Un=Op(Vn)U_n = O_p(V_n);若 UnVnP0\dfrac{U_n}{V_n} \xrightarrow{P} 0,则记 Un=op(Vn)U_n = o_p(V_n).

性质
Xn=Op(1)X_n = O_p(1)Yn=op(1)Y_n = o_p(1),则 XnYn=op(1)X_n Y_n = o_p(1),且 Xn+Yn=Op(1)X_n + Y_n = O_p(1).

定理
XndXX_n \xrightarrow{d} X,则 Xn=Op(1)X_n = O_p(1);若 XnPXX_n \xrightarrow{P} X,则 XndXX_n \xrightarrow{d} X.


X1,X2,,XnX_1, X_2, \dots, X_n 为 i.i.d. 随机变量,EX1=μ1EX_1=\mu_1Var(X1)=σ2<+\mathrm{Var}(X_1)=\sigma^2<+\infty. 根据 SLLN,Xˉa.s.μ\bar X\xrightarrow{a.s.}\mu,从而 Xˉμ=op(1)\bar X-\mu=o_p(1);根据 CLT,n(Xˉμ)/σdZN(0,1)\sqrt{n}(\bar X-\mu)/\sigma \xrightarrow{d} Z\sim N(0,1),那么 n(Xˉμ)=Op(1)\sqrt{n}(\bar X-\mu)=O_p(1)Xˉμ=Op(1n)\bar X-\mu=O_p(\frac{1}{\sqrt{n}}).

  • XnBinomial(n,1n)X_n\sim \mathrm{Binomial}(n,\frac{1}{n}),则 XndXPoisson(1)X_n\xrightarrow{d}X\sim\mathrm{Poisson}(1)
  • XnBinomial(n,p)X_n\sim \mathrm{Binomial}(n,p),则 Xnnpnp(1p)dN(0,1)\frac{X_n-np}{\sqrt{np(1-p)}}\xrightarrow{d}N(0,1)
  • XnBeta(1n,1n)X_n\sim \mathrm{Beta}(\frac{1}{n},\frac{1}{n}),则 XndXBernoulli(1,12)X_n\xrightarrow{d}X\sim\mathrm{Bernoulli}(1,\frac{1}{2}).

定理[一阶 Δ\Delta 方法]
若随机变量列 YnY_n 满足

n(Ynθ)dN(0,σ2),\sqrt{n}(Y_n - \theta) \xrightarrow{d} N(0, \sigma^2),

函数 g(x)g(x)θ\theta 处可导且 g(θ)0g'(\theta) \neq 0,则

n(g(Yn)g(θ))dN(0,σ2[g(θ)]2).\sqrt{n}\big(g(Y_n) - g(\theta)\big) \xrightarrow{d} N\left( 0, \sigma^2 [g'(\theta)]^2 \right).

证明.
由于 g(t)g(t)t=θt=\theta 可微,

limtθg(t)g(θ)tθ=g(θ),\lim_{t\to\theta}\frac{g(t)-g(\theta)}{t-\theta}=g'(\theta),

limtθg(t)g(θ)(tθ)g(θ)tθ=0,\lim_{t\to\theta}\frac{g(t)-g(\theta)-(t-\theta)g'(\theta)}{t-\theta}=0,

g(t)g(θ)(tθ)g(θ)tθ=o(1),\frac{g(t)-g(\theta)-(t-\theta)g'(\theta)}{t-\theta}=o(1),

也就是

g(t)g(θ)(tθ)g(θ)=o(1)(tθ),tθ.g(t)-g(\theta)-(t-\theta)g'(\theta)=o(1)(t-\theta),\quad t\to \theta.

YnY_n 代替 tt,得到

g(Yn)g(θ)=(Ynθ)g(θ)+op(1)(Ynθ),tθ,g(Y_n)-g(\theta)=(Y_n-\theta)g'(\theta)+o_p(1)(Y_n-\theta),\quad t\to \theta,

由 Slutsky 定理,

n(g(Yn)g(θ))=n(Ynθ)g(θ)+op(1)(Ynθ)ndN(0,σ2[g(θ)]2).\sqrt{n}\left(g(Y_n)-g(\theta)\right)=\sqrt{n}(Y_n-\theta)g'(\theta)+o_p(1)(Y_n-\theta)\sqrt{n}\xrightarrow{d} N\left( 0, \sigma^2 [g'(\theta)]^2 \right).

定理[二阶 Δ\Delta 方法]
若随机变量列 YnY_n 满足

n(Ynθ)dN(0,σ2),\sqrt{n}(Y_n - \theta) \xrightarrow{d} N(0, \sigma^2),

且函数 g(x)g(x) 满足 g(θ)=0g'(\theta) = 0g(θ)0g''(\theta) \neq 0,则

n(g(Yn)g(θ))d12σ2g(θ)χ12.n\big(g(Y_n) - g(\theta)\big) \xrightarrow{d} \tfrac{1}{2}\sigma^2 g''(\theta) \chi_1^2.

定理[高阶 Δ\Delta 方法]
若随机变量列 YnY_n 满足

n(Ynθ)dN(0,σ2),\sqrt{n}(Y_n - \theta) \xrightarrow{d} N(0, \sigma^2),

且函数 g(x)g(x) 满足 g(i)(θ)=0g^{(i)}(\theta) = 01im11 \le i \le m-1g(m)(θ)0g^{(m)}(\theta) \neq 0,则

nm/2(g(Yn)g(θ))d1m!g(m)(θ)σm[N(0,1)]m.n^{m/2}\big(g(Y_n) - g(\theta)\big) \xrightarrow{d} \frac{1}{m!} g^{(m)}(\theta) \sigma^m [N(0,1)]^m.


X1,,Xni.i.d.Bernoulli(1,p)X_1,\dots,X_n\stackrel{\mathrm{i.i.d.}}{\sim} \mathrm{Bernoulli}(1,p)0<p<10<p<1,那么 n(Xˉp)dN(0,p(1p))\sqrt{n}(\bar X-p)\xrightarrow{d}N(0,p(1-p)). 令 g(p)=p1pg(p)=\frac{p}{1-p}(称为优比),运用一阶 Δ\Delta 方法,可知

n(g(Xˉ)g(p))dN(0,p(1p)1(1p)4),\sqrt{n}\left(g(\bar X)-g(p)\right)\xrightarrow{d}N\left(0,p(1-p)\cdot\frac{1}{(1-p)^4}\right),

Xˉ1Xˉp1pN(0,pn(1p)3).\frac{\bar X}{1-\bar X}-\frac{p}{1-p}\sim N\left(0,\frac{p}{n(1-p)^3}\right).

5.6 生成随机样本

定理
XF(x)X \sim F(x),且 Y=F(X)Y = F(X),则 YU(0,1)Y \sim U(0,1). 据此,令 Y1,,YnY_1, \dots, Y_n 为 i.i.d. U(0,1)U(0,1) 随机变量,设

Xi=F1(Yi),i=1,2,,n,X_i = F^{-1}(Y_i), \quad i = 1, 2, \dots, n,

F1(Y1),,F1(Yn)F^{-1}(Y_1), \dots, F^{-1}(Y_n) 为 i.i.d.,且服从分布 F(x)F(x).


希望产生随机样本来自总体 YExp(β)Y\sim \mathrm{Exp}(\beta),即 pdf 为

f(xβ)=1βexp{xβ}I{x0}.f(x|\beta)=\frac{1}{\beta}\exp\left\{-\frac{x}{\beta}\right\}I_{\{x\geq0\}}.

考虑 u=F(y)=1ey/βu=F(y)=1-e^{-y/\beta}y0y\geq 0,那么 y=βlog(1u)y=-\beta\log(1-u),于是先产生 U1,,Uni.i.d.U(0,1)U_1,\dots,U_n\stackrel{\mathrm{i.i.d.}}{\sim} U(0,1),就有 βlog(1U1),,βlog(1Un)i.i.d.Exp(β)-\beta\log(1-U_1),\dots,-\beta\log(1-U_n)\stackrel{\mathrm{i.i.d.}}{\sim} \mathrm{Exp}(\beta).

定理[离散型随机变量的反函数法]
YY 为离散随机变量,其分布律为

P(Y=yj)=pj,j=1,2,,k.P(Y = y_j) = p_j, \quad j = 1, 2, \dots, k.

FY(y)=P(Yy)F_Y(y) = P(Y \le y). 产生 UU(0,1)U \sim U(0,1),若满足

FY(yj)<UFY(yj+1),F_Y(y_j) < U \le F_Y(y_{j+1}),

则令 Y=yj+1Y = y_{j+1},其中 j=1,2,,k1j = 1, 2, \dots, k-1.重复该过程可得到独立样本.

定理[正态随机变量的 Box-Muller 算法]
U1,,UnU_1, \dots, U_n 为 i.i.d. U(0,1)U(0,1) 随机变量,则有

i=1nUin2n112dN(0,1).\frac{\sum_{i=1}^n U_i - \frac{n}{2}}{\sqrt{n \cdot \frac{1}{12}}} \xrightarrow{d} N(0,1).

例如取 n=12n = 12,则 i=112Ui6N(0,1)\sum_{i=1}^{12} U_i - 6 \approx N(0,1).

此外,若 U1,U2U_1, U_2 为独立的 U(0,1)U(0,1) 随机变量,令

R=2logU1,θ=2πU2R = \sqrt{-2\log U_1}, \quad \theta = 2\pi U_2,

X=Rcosθ,Y=RsinθX = R\cos\theta, \quad Y = R\sin\theta

独立且 X,YN(0,1)X, Y \sim N(0,1).

定理[取舍法]
f(x)f(x) 为概率密度函数,且有界,取常数 Msupxf(x)M \ge \sup_x f(x). 产生独立随机变量 VU(a,b)V \sim U(a,b)UU(0,M)U \sim U(0,M),若满足

Uf(V)U \le f(V),

则令 X=VX = V;否则,返回上一步重新生成.
重复此过程即可得到 X1,X2,X_1, X_2, \dots,独立且服从分布 f(x)f(x).


统计推断笔记-第五章
http://imtdof.github.io/2025/11/13/统计推断笔记-第五章/
作者
UncleBob
发布于
2025年11月13日
许可协议