1253 字
6 分钟
数理统计的基本概念

总体#

总体(population)是指在某一研究中所关注的全部对象的集合。总体可以是有限的,也可以是无限的。

样本#

样本(sample)是从总体中抽取的一部分个体或观测值的集合。样本用于推断总体的性质。

随机抽样#

随机抽样是指从总体中以随机方式抽取样本,使得每个个体被选中的概率相等。

其中,简单随机抽样是最基本的随机抽样方法。得到的样本叫简单随机样本。

简单随机抽样的必要条件:

  • 每个个体被选中的概率相等

  • 抽样过程中个体之间相互独立

  • 个体和总体必须是同分布

三大统计分布#

在数理统计中,三大重要的统计分布是:

  1. 卡方分布(Chi-square distribution):用于检验样本方差与总体方差的关系,常用于假设检验和方差分析。

  2. t分布(Student’s t-distribution):用于小样本情况下的均值检验,特别是在总体标准差未知时。

  3. F分布(F-distribution):用于比较两个样本方差,常用于方差分析和回归分析。

卡方分布:标准正太的平方和#

Z1,Z2,,ZnZ_1, Z_2, \ldots, Z_nnn 个相互独立的且服从标准正态分布的随机变量,则随机变量 Y=i=1nZi2Y = \sum_{i=1}^n Z_i^2 服从自由度nn 的卡方分布,记作 Yχ2(n)Y \sim \chi^2(n)

不需要掌握分布函数和概率密度函数的具体形式。

  • 卡方分布的期望就是自由度E(Y)=nE(Y) = n

  • 卡方分布的方差自由度的两倍D(Y)=2nD(Y) = 2n

  • 卡方分布的图像是偏态的,峰值靠左;随着自由度的增加,图像逐渐趋近于正态分布。

卡方分布具有可加性

Y1χ2(n1)Y_1 \sim \chi^2(n_1)Y2χ2(n2)Y_2 \sim \chi^2(n_2),且 Y1Y_1Y2Y_2 相互独立,则 Y1+Y2χ2(n1+n2)Y_1 + Y_2 \sim \chi^2(n_1 + n_2)

t分布#

ZZ 是一个服从标准正态分布的随机变量,YY 是一个服从自由度nn 的卡方分布的随机变量,且 ZZYY 相互独立,则随机变量

T=ZY/nt(n)T = \frac{Z}{\sqrt{Y/n}}\sim t(n)

服从自由度nn 的 t 分布。

t 分布的期望:E(T)=0\mathbb{E}(T) = 0,方差: D(T)=nn2\mathbb{D}(T) = \dfrac{n}{n-2}n>2n>2)。

F分布#

XXYY 分别是自由度mmnn 的两个卡方分布的随机变量,且 XXYY 相互独立,则随机变量:

F=X/mY/nF(m,n)F = \frac{X/m}{Y/n} \sim F(m,n)

服从自由度(m,n)(m,n) 的 F 分布。

其中,在前面的 mm 称为分子自由度,在后面的 nn 称为分母自由度

对F取倒数,依然是F分布:

1F=Y/nX/mF(n,m)\frac{1}{F} = \frac{Y/n}{X/m} \sim F(n,m)
TIP

考试的时候牢记定义,凑公式判断分布种类。

统计量#

统计量是样本构造出来的不依赖于未知参数的函数。统计量是样本的函数,通常用来估计总体参数或进行假设检验。

常见的统计量包括:

  • 样本均值 X=1ni=1nXi\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i,用于估计总体均值。

  • 样本方差 S2=1n1i=1n(XiX)2S^2 = \dfrac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2,用于估计总体方差。

  • 样本标准差 S=S2S = \sqrt{S^2},用于估计总体标准差。

注意,样本方差 S2S^2 的分母是 n1n-1 而不是 nn,这是为了使样本方差成为总体方差 σ2\sigma^2 的无偏估计,即满足:

E(S2σ2)=0\mathbb{E}(S^2-\sigma^2) = 0

正态总体下样本均值的分布#

对于正态样本XiN(μ,σ2)X_i\sim N(\mu, \sigma^2),样本均值 X=1ni=1nXi\overline{X} = \dfrac{1}{n} \sum_{i=1}^{n} X_i 服从正态分布:

XN(μ,σ2n)\overline{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)
TIP

正态分布的线性组合依然是正态分布,所以样本均值的分布是正态分布。

均值的推导:

E(X)=E(1ni=1nXi)=1ni=1nE(Xi)=μ\mathbb{E}(\overline{X}) = \mathbb{E}\left(\frac{1}{n} \sum_{i=1}^{n} X_i\right) = \frac{1}{n} \sum_{i=1}^{n} \mathbb{E}(X_i) = \mu

方差的推导(方差的独立可加性):

D(X)=D(1ni=1nXi)=1n2i=1nD(Xi)=σ2n\mathbb{D}(\overline{X}) = \mathbb{D}\left(\frac{1}{n} \sum_{i=1}^{n} X_i\right) = \frac{1}{n^2} \sum_{i=1}^{n} \mathbb{D}(X_i) = \frac{\sigma^2}{n}

注意,无论总体是什么分布,总有:

E(X)=μ,D(X)=σ2n\mathbb{E}(\overline{X}) = \mu, \quad \mathbb{D}(\overline{X}) = \frac{\sigma^2}{n}

两个结论的推导只依赖于期望和方差的线性性质,和总体的分布无关。如果总体不是正态分布,但样本容量足够大,根据中心极限定理,样本均值 X\overline{X} 近似服从正态分布。

对样本均值进行标准化,可以构造出标准正态分布变量 ZZ

Z=Xμσ/nN(0,1)Z = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)

正态总体下样本方差的分布#

这个目前没法证,只能记结论:

对于正态样本 XiN(μ,σ2)X_i \sim N(\mu, \sigma^2),样本方差 S2=1n1i=1n(XiX)2S^2 = \dfrac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 服从卡方分布:

(n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

正态总体下样本标准差的分布#

结合样本均值和样本方差,可以构造出 t 分布:

XμS2/nt(n1)\frac{\overline{X}-\mu}{\sqrt{S^2/n}}\sim t(n-1)

#

矩是统计量的一种,用于描述随机变量的分布特征。常见的矩包括:

  • 原点矩:随机变量 XXkk 阶原点矩定义为

    E(Xk)=1ni=1nXik\mathbb{E}(X^k)=\frac{1}{n} \sum_{i=1}^n X_i^k

    记作 αk\alpha_k

  • 中心矩:随机变量 XXkk 阶中心矩定义为

    E[(XE(X))k]=1ni=1n(XiX)k\mathbb{E}[(X-\mathbb{E}(X))^k]=\frac{1}{n} \sum_{i=1}^n (X_i-\overline{X})^k

    记作 βk\beta_k

注意求矩不要和求方差混淆,方差是二阶中心矩。

数理统计的基本概念
https://biscuit0613.github.io/posts/possibilitytheory/pt_mathematicalstatistics/
作者
Biscuit
发布于
2025-12-08
许可协议
CC BY-NC-SA 4.0