数理统计的基本概念 - Biscuitの赛博小窝

Biscuit

哈基米，你要大步大步地走下去啊，不行，要悠哒悠哒才能欣赏到沿途的风景。

公告

欢迎来到我的博客喵。

了解更多

1253 字

6 分钟

数理统计的基本概念

2025-12-08

概率论与数理统计

数理统计

总体#

总体(population)是指在某一研究中所关注的全部对象的集合。总体可以是有限的，也可以是无限的。

样本#

样本(sample)是从总体中抽取的一部分个体或观测值的集合。样本用于推断总体的性质。

随机抽样#

随机抽样是指从总体中以随机方式抽取样本，使得每个个体被选中的概率相等。

其中，简单随机抽样是最基本的随机抽样方法。得到的样本叫简单随机样本。

简单随机抽样的必要条件：

每个个体被选中的概率相等
抽样过程中个体之间相互独立
个体和总体必须是同分布的

三大统计分布#

在数理统计中，三大重要的统计分布是：

卡方分布(Chi-square distribution)：用于检验样本方差与总体方差的关系，常用于假设检验和方差分析。
t分布(Student’s t-distribution)：用于小样本情况下的均值检验，特别是在总体标准差未知时。
F分布(F-distribution)：用于比较两个样本方差，常用于方差分析和回归分析。

卡方分布：标准正太的平方和#

设 $Z_1, Z_2, \ldots, Z_n$ 是 $n$ 个相互独立的且服从标准正态分布的随机变量，则随机变量 $Y = \sum_{i=1}^n Z_i^2$ 服从自由度为 $n$ 的卡方分布，记作 $Y \sim \chi^2(n)$ 。

不需要掌握分布函数和概率密度函数的具体形式。

卡方分布的期望就是自由度： $E(Y) = n$
卡方分布的方差是自由度的两倍： $D(Y) = 2n$
卡方分布的图像是偏态的，峰值靠左；随着自由度的增加，图像逐渐趋近于正态分布。

卡方分布具有可加性：

若 $Y_1 \sim \chi^2(n_1)$ 且 $Y_2 \sim \chi^2(n_2)$ ，且 $Y_1$ 与 $Y_2$ 相互独立，则 $Y_1 + Y_2 \sim \chi^2(n_1 + n_2)$ 。

t分布#

设 $Z$ 是一个服从标准正态分布的随机变量， $Y$ 是一个服从自由度为 $n$ 的卡方分布的随机变量，且 $Z$ 与 $Y$ 相互独立，则随机变量

T = \frac{Z}{\sqrt{Y/n}}\sim t(n)

服从自由度为 $n$ 的 t 分布。

t 分布的期望： $\mathbb{E}(T) = 0$ ，方差: $\mathbb{D}(T) = \dfrac{n}{n-2}$ （ $n>2$ ）。

F分布#

设 $X$ 和 $Y$ 分别是自由度为 $m$ 和 $n$ 的两个卡方分布的随机变量，且 $X$ 与 $Y$ 相互独立，则随机变量:

F = \frac{X/m}{Y/n} \sim F(m,n)

服从自由度为 $(m,n)$ 的 F 分布。

其中，在前面的 $m$ 称为分子自由度，在后面的 $n$ 称为分母自由度。

对F取倒数，依然是F分布：

\frac{1}{F} = \frac{Y/n}{X/m} \sim F(n,m)

TIP
考试的时候牢记定义，凑公式判断分布种类。

统计量#

统计量是样本构造出来的不依赖于未知参数的函数。统计量是样本的函数，通常用来估计总体参数或进行假设检验。

常见的统计量包括：

样本均值 $\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$ ，用于估计总体均值。
样本方差 $S^2 = \dfrac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$ ，用于估计总体方差。
样本标准差 $S = \sqrt{S^2}$ ，用于估计总体标准差。

注意，样本方差 $S^2$ 的分母是 $n-1$ 而不是 $n$ ，这是为了使样本方差成为总体方差 $\sigma^2$ 的无偏估计，即满足:

\mathbb{E}(S^2-\sigma^2) = 0

正态总体下样本均值的分布#

对于正态样本 $X_i\sim N(\mu, \sigma^2)$ ，样本均值 $\overline{X} = \dfrac{1}{n} \sum_{i=1}^{n} X_i$ 服从正态分布：

\overline{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)

TIP
正态分布的线性组合依然是正态分布，所以样本均值的分布是正态分布。
均值的推导：
$\mathbb{E}(\overline{X}) = \mathbb{E}\left(\frac{1}{n} \sum_{i=1}^{n} X_i\right) = \frac{1}{n} \sum_{i=1}^{n} \mathbb{E}(X_i) = \mu$
方差的推导（方差的独立可加性）：
$\mathbb{D}(\overline{X}) = \mathbb{D}\left(\frac{1}{n} \sum_{i=1}^{n} X_i\right) = \frac{1}{n^2} \sum_{i=1}^{n} \mathbb{D}(X_i) = \frac{\sigma^2}{n}$

注意，无论总体是什么分布，总有：

\mathbb{E}(\overline{X}) = \mu, \quad \mathbb{D}(\overline{X}) = \frac{\sigma^2}{n}

两个结论的推导只依赖于期望和方差的线性性质，和总体的分布无关。如果总体不是正态分布，但样本容量足够大，根据中心极限定理，样本均值 $\overline{X}$ 近似服从正态分布。

对样本均值进行标准化，可以构造出标准正态分布变量 $Z$ ：

Z = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)

正态总体下样本方差的分布#

这个目前没法证，只能记结论：

对于正态样本 $X_i \sim N(\mu, \sigma^2)$ ，样本方差 $S^2 = \dfrac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$ 服从卡方分布：

\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

正态总体下样本标准差的分布#

结合样本均值和样本方差，可以构造出 t 分布：

\frac{\overline{X}-\mu}{\sqrt{S^2/n}}\sim t(n-1)

矩#

矩是统计量的一种，用于描述随机变量的分布特征。常见的矩包括：

原点矩：随机变量 $X$ 的 $k$ 阶原点矩定义为
$\mathbb{E}(X^k)=\frac{1}{n} \sum_{i=1}^n X_i^k$
记作 $\alpha_k$ 。
中心矩：随机变量 $X$ 的 $k$ 阶中心矩定义为
$\mathbb{E}[(X-\mathbb{E}(X))^k]=\frac{1}{n} \sum_{i=1}^n (X_i-\overline{X})^k$
记作 $\beta_k$ 。

注意求矩不要和求方差混淆，方差是二阶中心矩。

数理统计的基本概念

https://biscuit0613.github.io/posts/possibilitytheory/pt_mathematicalstatistics/

作者

Biscuit

发布于

2025-12-08

许可协议

CC BY-NC-SA 4.0

依概率收敛和依分布收敛

两个重要不等式

biscuitの博客

总体#

样本#

随机抽样#

三大统计分布#

卡方分布：标准正太的平方和#

t分布#

F分布#

统计量#

正态总体下样本均值的分布#

正态总体下样本方差的分布#

正态总体下样本标准差的分布#

矩#