总体(population)是指在某一研究中所关注的全部对象的集合。总体可以是有限的,也可以是无限的。
样本(sample)是从总体中抽取的一部分个体或观测值的集合。样本用于推断总体的性质。
随机抽样#
随机抽样是指从总体中以随机方式抽取样本,使得每个个体被选中的概率相等。
其中,简单随机抽样是最基本的随机抽样方法。得到的样本叫简单随机样本。
简单随机抽样的必要条件:
-
每个个体被选中的概率相等
-
抽样过程中个体之间相互独立
-
个体和总体必须是同分布的
三大统计分布#
在数理统计中,三大重要的统计分布是:
-
卡方分布(Chi-square distribution):用于检验样本方差与总体方差的关系,常用于假设检验和方差分析。
-
t分布(Student’s t-distribution):用于小样本情况下的均值检验,特别是在总体标准差未知时。
-
F分布(F-distribution):用于比较两个样本方差,常用于方差分析和回归分析。
卡方分布:标准正太的平方和#
设 Z1,Z2,…,Zn 是 n 个相互独立的且服从标准正态分布的随机变量,则随机变量 Y=∑i=1nZi2 服从自由度为 n 的卡方分布,记作 Y∼χ2(n)。
不需要掌握分布函数和概率密度函数的具体形式。
-
卡方分布的期望就是自由度:E(Y)=n
-
卡方分布的方差是自由度的两倍:D(Y)=2n
-
卡方分布的图像是偏态的,峰值靠左;随着自由度的增加,图像逐渐趋近于正态分布。
卡方分布具有可加性:
若 Y1∼χ2(n1) 且 Y2∼χ2(n2),且 Y1 与 Y2 相互独立,则 Y1+Y2∼χ2(n1+n2)。
t分布#
设 Z 是一个服从标准正态分布的随机变量,Y 是一个服从自由度为 n 的卡方分布的随机变量,且 Z 与 Y 相互独立,则随机变量
T=Y/nZ∼t(n)服从自由度为 n 的 t 分布。
t 分布的期望:E(T)=0,方差: D(T)=n−2n(n>2)。
F分布#
设 X 和 Y 分别是自由度为 m 和 n 的两个卡方分布的随机变量,且 X 与 Y 相互独立,则随机变量:
F=Y/nX/m∼F(m,n)服从自由度为 (m,n) 的 F 分布。
其中,在前面的 m 称为分子自由度,在后面的 n 称为分母自由度。
对F取倒数,依然是F分布:
F1=X/mY/n∼F(n,m)TIP考试的时候牢记定义,凑公式判断分布种类。
统计量#
统计量是样本构造出来的不依赖于未知参数的函数。统计量是样本的函数,通常用来估计总体参数或进行假设检验。
常见的统计量包括:
-
样本均值 X=n1∑i=1nXi,用于估计总体均值。
-
样本方差 S2=n−11∑i=1n(Xi−X)2,用于估计总体方差。
-
样本标准差 S=S2,用于估计总体标准差。
注意,样本方差 S2 的分母是 n−1 而不是 n,这是为了使样本方差成为总体方差 σ2 的无偏估计,即满足:
E(S2−σ2)=0正态总体下样本均值的分布#
对于正态样本Xi∼N(μ,σ2),样本均值 X=n1∑i=1nXi 服从正态分布:
X∼N(μ,nσ2)TIP正态分布的线性组合依然是正态分布,所以样本均值的分布是正态分布。
均值的推导:
E(X)=E(n1i=1∑nXi)=n1i=1∑nE(Xi)=μ方差的推导(方差的独立可加性):
D(X)=D(n1i=1∑nXi)=n21i=1∑nD(Xi)=nσ2
注意,无论总体是什么分布,总有:
E(X)=μ,D(X)=nσ2两个结论的推导只依赖于期望和方差的线性性质,和总体的分布无关。如果总体不是正态分布,但样本容量足够大,根据中心极限定理,样本均值 X 近似服从正态分布。
对样本均值进行标准化,可以构造出标准正态分布变量 Z:
Z=σ/nX−μ∼N(0,1)正态总体下样本方差的分布#
这个目前没法证,只能记结论:
对于正态样本 Xi∼N(μ,σ2),样本方差 S2=n−11∑i=1n(Xi−X)2 服从卡方分布:
σ2(n−1)S2∼χ2(n−1)正态总体下样本标准差的分布#
结合样本均值和样本方差,可以构造出 t 分布:
S2/nX−μ∼t(n−1)
矩是统计量的一种,用于描述随机变量的分布特征。常见的矩包括:
注意求矩不要和求方差混淆,方差是二阶中心矩。