一般地,将随机变量大写,将观测值(随机变量的取值)小写,将参数的估计量加一尖(如β^),统计中一般是站在抽样前的立场上看,当随机变量观测之后大写也随着变成了小写。
总体:一个问题所研究的全部元素的集合
个体:总体之中的每个元素
样本:个体的指标值(X1,X2,⋯,Xn)
样本容量(Sample Size):样本中所包含的个体数n
样本观测值:对某次抽样观测得到(X1,X2,⋯,Xn)的一组确定值(x1,x2,⋯,xn)
样本空间:样本(X1,X2,⋯,Xn)可能取值的全体,记为X,它可以是n维空间,也可以是其中的一个子集,样本的一次观测值(x1,x2,⋯,xn)就是样本空间的一个点(x1,x2,⋯,xn)∈X
设总体X具有分布函数F(x),(X1,X2,⋯,Xn)为取自总体的大小为n的样本,则(X1,X2,⋯,Xn)的联合分布函数为∏i=1nF(xi)
统计量:设(X1,X2,⋯,Xn)是来自总体X的一个样本,T=T(x1,x2,⋯,xn)是样本空间X上的实值函数,若T(X1,X2,⋯,Xn)也是随机变量,且不依赖于任何未知参数则T(X1,X2,⋯,Xn)为统计量(Statistics).
记
X¯=n1i=1∑nXi,S2=n−11i=1∑n(Xi−X¯)2
为样本均值和样本方差,称统计量
Ak=n1i=1∑nXik,Bk=n1(Xi−X¯)k
为样本的k阶(原点)矩,和样本的k阶中心矩,样本的二阶中心矩B2有时也记为Sn2
常用关系:(下面将∑i=1n简记为∑)
∑(Xi−X¯)2===∑(Xi2+X¯2−2X¯Xi)∑Xi2+nX¯2−2X¯∑Xi∑Xi2−nX¯2
将总体的期望和方差记为μ,σ2,即:
E(X)=μ,var(X)=σ2
(var是方差的现代记法)
若随机向量X的联合分布密度函数为:
f(x)=(2π)2n∣B∣211exp(−21(x−a)′B−1(x−a))
其中B为正定阵,则称随机向量X所服从的分布为多元正态分布,简记为X∼Nn(a,B)
记法:设X=(X1,X2,⋯,Xn)′,Y=(Y1,Y2,⋯,Yn)′是两个随机向量,Z=(Zij)r×s为随机矩阵,记:
E(X)=(E(X1),⋯,E(Xn)),E(Z)=(E(Zij))r×s
var(X)=E((X−E(X))(X−E(X))′)
ρij=var(Xi)var(Xj)cov(Xi,Xj)
为Xi与Xj之间的线性相关系数,简称相关系数。
cov(X,Y)=(cov(Y,X))′=E((X−E(X))(Y−E(Y))′)
E(X)称为X的数学期望(均值),var(X)或cov(X,X)称为X的协方差阵,cov(X,Y)称为X和Y的协方差阵。
n元正态分布的性质:
- 性质一:多元正态分布的边缘分布依然是正态分布。(反之未必成立)
- 性质二:多元正态分布由它的前两阶矩完全确定。
若X∼Nn(a,B)则
E(X)=a,var(X)=B
- 性质三:多元正态分布中X=(X2X1)∼Na(a,B)则X1,X2相互独立的充要条件是它们不相关(协方差矩阵为零矩阵)
- 性质四:(线性性),若X∼Nn(a,B),A是秩为m的m×n的行满秩矩阵,b是m维实向量,则:
Y∼Nm(Aa+b,ABA′)
- 性质五:若X∼Nn(a,B),则存在一个正交变换Γ,使Y=Γ(X−a的各分量是相互独立,均值为0的正态变量。
特别地,若X∼Nn(a,σ2In),则Y=ΓX∼Nn(a,σ2),即标准正态随机向量在正交变换下保持分布不变性。
统计量的分布称为抽样分布(Sampling Distribution),它与样本的分布不同。
(正态总体抽样分布定理)
设(X1,X2,⋯,Xn)是取自正态总体N(μ,σ2)的一个样本,则:
- X¯∼N(μ,σ2/n)⟺n
⋅σX¯−μ∼N(0,1)
- (总体均值方差均已知)σ21∑(Xi−μ)2∼χ2(n)
- (总体方差已知)(n−1)S2/σ2=nSn2/σ2=σ21∑(Xi−X¯)2∼χ2(n−1)
- X¯,S2相互独立
(总体方差未知) T=SX¯−μn
∼t(n−1)
(两个正态总体)设(X1,⋯,Xn1)是取自正态总体N(μ1,σ12)的一个样本,(Y1,⋯,Yn2)是取自正态总体N(μ2,σ22)的一个样本,且两个样本相互独立,则:
- F=S22/σ22S12/σ12∼F(n1−1,n2−2)
- 若σ12=σ22=σ2,则:
T=Sωn11+n21
(X¯−Y¯)−(μ1−μ2)∼t(n1+n2−2)
其中
Sω2=n1+n2−2(n1−1)S12+(n2−1)S22
称为两个样本的合并方差。(Pooled Variance)
估计量(Estimator):直接用于估计参数的统计量,记作θ^
估计值(Estimate):将观测值代人估计量得到的一个具体数值
估计(Estimation):将估计量和估计值的总称。
矩估计(Moment Estimation):当样本很大时,经验分布函数与总体分布函数十分近似,因而样本矩在一定程度上反映总体矩的特征。(K.Pearson,1902)
将总体的矩用相应样本的矩替换。
步骤:
- 将总体k阶矩写成参数的形式
- 将总体k阶矩用样本k阶矩代替
- 反解出参数
极大似然估计(Maximum Likelihood Estimator,MLE,ML估计):认为出现概率最大的事件发生(C.F.Gauss 1821,R.A.Fisher 1922)
似然(Likelihood):当某组观测值是依赖于一些参数的某一特定概率分布得到时,出现这组观测值的概率
步骤:
- 写出样本的联合分布--似然函数
- 取对数,求极值。
-
均方误差(Mean Square Error,MSE):MSE(θ^)=E(θ^−θ)2,(没有限定偏没偏),对于无偏估计量,均方误差就是方差。均方误差是评价点估计最一般的标准。
关系:
MSE(θ^)====E((θ^−Eθ^)+(Eθ^−θ))2E(θ^−Eθ^)2+E(Eθ^−θ)2+2E(θ^−Eθ^)(Eθ^−θ)var(θ^)+(Eθ^−θ)2+0var(θ^)+b2
均方误差的平方等于方差加上偏差的平方
-
无偏性 E(θ^)=θ
-
偏(Bias):b=E(θ^)−θ(与系统误差类似)
-
渐近无偏估计 limn→∞E(θ^)=θ
-
可估函数:对于参数θ的任一实值函数,如果θ的无偏估计量存在,也就是说有估计量T=T(X1,⋯,Xn)对一切θ,有:
E(T)=g(θ)
则称g(θ)为可估函数。
不可估函数是存在的,设总体X∼b(n,p),0<p<1,X1(一次试验)是取自这个总体的一个样本,则函数g(p)=1/p不可估。
proof
假设g(p)可估,构造一个估计量T(X1),记它的值为T(i)=ci,i=0,1,⋯,n使得对一切0<p≤1,都有:
E(T(X1))=i=0∑nci(kn)pi(1−p)n−i=p1
这显然是不可能的,只要g(p)不是次数小鱼等于n的多项式,g(p)的无偏估计都不存在。
如果θ^是θ的无偏估计,不能推出g(θ^)是g(θ)的无偏估计,除非g是线性函数。
-
有效性 如果θ^与θ^∗都是未知参数θ的无偏估计,如果
var(θ^2)≤var(θ^)
则称θ^∗比θ^有效
-
一致最小方差无偏估计
我们引入下面记号,记
U=△{T:E(T)=g(θ),var(T)≤∞,∀θ∈Θ}
U为可估函数g(θ)的方差有限的无偏估计的集合
U0=△{T:E(T)=0,var(T)≤∞,∀θ∈Θ}
U0是数学期望为0,方差有限的估计量的集合
定义:设T为可估函数g(θ)的无偏估计量,若对于任意的θ∈Θ,和g(θ)的任意无偏估计量T,都有
var(T1)≤var(T)
则称T1是g(θ)的一致最小方差无偏估计量(Uniformly Minimum Variance Unbiased Estimator,UMVUE)
定理:设T(X)是g(θ)的无偏估计,var(T(X))<∞,则T(X)为UMVUE的充要条件是
∀φ(X)∈U0,cov(φ(X),T(X))=0⟺E(φT)=0
proof.
必要性:设T(X)是g(θ)的UMVUE,∀φ(X)∈U0,λ∈R
φ′(X)=λφ(X)+T(X)∈U,
var(T(X))≤var(λφ(X)+T(X)),(∵T(X)isUMVUE)
∴λ2var(φ(X))+2λcov(φ(X),T(X))≥0
由λ∈R的任意性知:cov(φ(X),T(X))=0,∀θ∈Θ
充分性:设∀φ(X)∈U0,cov(φ(X),T(X))=0,∀θ∈Θ,要证T(X)是g(θ)的UMVUE,若φ′(X)∈U,T(X)−φ′(X)∈U0,由假设条件得:
cov(T(X)−φ′(X),T(X))=0∵cov(X,Y)=E(XY)−EXEYE(T−φ′(X))T(X)=0E(T2)−E(Tφ′)=0
由Schwarz不等式知:
E2T2=E2(Tφ′)≤ET2Eφ′2
∴ET2≤Eφ′2
又ET=Eφ′=g,varX=EX2−E2X
varT≤varφ′
由φ′∈U的任意性可知,T是g的UMVUE
-
相合性:
定义:设T是g(θ)的一个估计量,若对于任何θ∈Θ,Tn依概率收敛于g(θ),则称Tn是g的相合估计(Consistent Estimator)
n→∞limPr{∣Tn−g(θ)∣>ε}=0
-
线性性:参数估计量是Y的线性函数。