概率论与数理统计

01

概率论的基本概念

1.1 随机事件 · 关系与运算

先这么理解概率题先不要急着套公式，先把文字翻译成“哪些情况算发生”。样本空间就是所有可能结果，事件就是其中一部分结果；并集是“至少一个”，交集是“同时”，对立事件是“刚好没发生”。

样本空间 Ω：全体样本点 ω 的集合；样本空间的子集称为随机事件。必然事件记 Ω，不可能事件记 ∅。

事件关系：

包含 A⊆B：A 发生必导致 B 发生。
和事件 A∪B：至少一个发生；积事件 AB：同时发生。
差事件 \(A-B=A\cap\overline{B}\)：A 发生且 B 不发生。
对立事件 \(\overline{A}=\Omega-A\)；互不相容 \(AB=\varnothing\)。

常用运算律（德摩根律）：

\[\overline{A\cup B}=\overline{A}\cap\overline{B},\qquad \overline{A\cap B}=\overline{A}\cup\overline{B}\]

\[A\cup(B\cap C)=(A\cup B)\cap(A\cup C)\]

事件语言转换（A、B、C 三事件）：

恰好发生一种：\(A\overline{B}\overline{C}\cup \overline{A}B\overline{C}\cup \overline{A}\overline{B}C\)
恰好发生两种：\(AB\overline{C}\cup A\overline{B}C\cup \overline{A}BC\)
至少一种：\(A\cup B\cup C\)；都不发生：\(\overline{A\cup B\cup C}\)

易错点

“至少一个”用并集，常用对立事件简化；“都发生”是交集。
“互不相容”只表示不能同时发生；“对立”还要求二者必有一个发生。

1.2 频率与概率 · 加法公式

先这么理解频率是“做了很多次后出现的比例”，概率是这个比例长期稳定下来的理论值。加法公式解决的是“两个事件合在一起发生”的概率，关键是别把重叠部分算两遍。

频率 \(f_n(A)=\dfrac{n_A}{n}\)；当 n 增大时频率稳定于常数 p，即概率 \(P(A)=p\)。

基本性质：\(P(\varnothing)=0,\ P(\Omega)=1,\ 0\le P(A)\le1\)；\(P(\overline{A})=1-P(A)\)；\(P(A-B)=P(A)-P(AB)\)。

加法公式：

\[P(A\cup B)=P(A)+P(B)-P(AB)\]

\[P(A\cup B\cup C)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)\]

易错点

\(P(A)=0\) 不等于事件不可能；\(P(A)=1\) 不等于必然。
两事件不互斥时不能直接相加，必须减去交集概率 \(P(AB)\)。

1.3 古典概型与几何概型

先这么理解古典概型就是“数个数”：总共有多少种等可能结果，其中有多少种符合题意。几何概型就是“量长度、面积或体积”：符合条件的区域占总区域多少。

古典概型（有限 + 等可能）：\(P(A)=\dfrac{m}{n}=\dfrac{\text{有利基本事件数}}{\text{基本事件总数}}\)。

计数：排列 \(A_n^k=\dfrac{n!}{(n-k)!}\)（有序），组合 \(C_n^k=\dfrac{n!}{k!(n-k)!}\)（无序）。

抽样模型（7 黑 3 白，取 3 次）：

\[\text{有放回 2黑1白：}C_3^2\left(\tfrac{7}{10}\right)^2\left(\tfrac{3}{10}\right)\qquad \text{无放回：}\frac{C_7^2C_3^1}{C_{10}^3}\]

超几何分布（N 件含 D 件次品，取 n 件恰 k 件次品）：

\[P(X=k)=\frac{C_D^kC_{N-D}^{n-k}}{C_N^n}\]

几何概型：\(P(A)=\dfrac{g\text{ 的测度}}{G\text{ 的测度}}\)（长度/面积/体积）。

易错点

古典概型须同时满足“有限”和“等可能”；计算前先判断是否考虑顺序。
“无放回”一般不能直接用独立重复试验公式。

1.4 条件概率 · 全概率 · 贝叶斯

先这么理解条件概率是“已知 A 已经发生，在这个新范围里看 B 的概率”。全概率是“按原因分组再相加”。贝叶斯是“已经看到结果，反过来猜最可能来自哪个原因”。

条件概率：\(P(B\mid A)=\dfrac{P(AB)}{P(A)}\)（\(P(A)>0\)）。

乘法公式：\(P(AB)=P(A)P(B\mid A)=P(B)P(A\mid B)\)。

全概率公式（\(B_1,\dots,B_n\) 是划分）：

\[P(A)=\sum_{i=1}^{n}P(B_i)P(A\mid B_i)\]

贝叶斯公式（由结果反推原因）：

\[P(B_i\mid A)=\frac{P(B_i)P(A\mid B_i)}{\sum_{j=1}^{n}P(B_j)P(A\mid B_j)}\]

易错点

条件概率会改变样本空间；\(P(B\mid A)\ne P(A\mid B)\)。
全概率关键是找到互不相容且完备的事件组。

1.5 独立性 · 伯努利试验

先这么理解独立的意思是“一个事件发生，不会改变另一个事件发生的概率”。伯努利试验就是同一件事重复做很多次，每次只有成功/失败两种结果，且每次成功概率一样。

独立：\(P(AB)=P(A)P(B)\)，等价于 \(P(B\mid A)=P(B)\)。若 A、B 独立，则 \(\overline A,B\) 等也独立。

独立 ≠ 互斥：互斥 \(AB=\varnothing\)；有正概率的两事件，互斥与独立不能同时成立。

至少一个发生（独立时）：

\[P\Big(\bigcup_{i=1}^n A_i\Big)=1-\prod_{i=1}^{n}\big(1-P(A_i)\big)\]

二项概率（n 重伯努利）：

\[P(X=k)=C_n^k p^k q^{\,n-k},\quad q=1-p,\ k=0,1,\dots,n\]

技巧“至少一次” 用对立事件：\(P(X\ge1)=1-P(X=0)=1-q^{\,n}\)。

易错点

两两独立 ⇏ 相互独立（相互独立还要求 \(P(A_1A_2A_3)=P(A_1)P(A_2)P(A_3)\)）。
无放回抽样一般不是伯努利模型。

02

随机变量及其分布

2.1–2.2 随机变量与离散型分布律

先这么理解随机变量就是给试验结果贴数字标签。离散型随机变量只会取一个个分开的值，比如 0、1、2；分布律就是把每个值对应的概率列出来。

随机变量 \(X=X(e)\) 把试验结果数值化。离散型 X 的分布律 \(P(X=x_k)=p_k\) 必须满足：

\[p_k\ge0,\qquad \sum_k p_k=1\]

常用归一化 \(\sum p_k=1\) 是求待定常数的核心方程（含等比/指数级数）。

2.3 常见离散型分布（0-1 / 二项 / 泊松）

先这么理解0-1 分布看一次成败；二项分布看 n 次里成功几次；泊松分布常用来描述一段时间或空间里“某事件出现几次”，比如来电数、缺陷数。

分布	分布律	记号 / 备注
0-1 分布	\(P(X=k)=p^k(1-p)^{1-k},k=0,1\)	两点分布
二项分布	\(P(X=k)=C_n^kp^k(1-p)^{n-k}\)	\(X\sim B(n,p)\)，n 次独立试验成功次数
泊松分布	\(P(X=k)=\dfrac{\lambda^k e^{-\lambda}}{k!}\)	\(X\sim P(\lambda),\lambda>0\)

泊松近似：n 大、p 小、\(\lambda=np\) 时，\(B(n,p)\approx P(\lambda)\)；n=1 时二项分布即 0-1 分布。

2.4 分布函数 F(x)

先这么理解分布函数 \(F(x)\) 问的是“X 落在 x 左边的概率有多少”。它像一个累计进度条，x 往右走，累计概率只会增加，不会减少。

\(F(x)=P(X\le x)\)，性质：\(0\le F\le1\)、单调不减、右连续、\(F(-\infty)=0,F(+\infty)=1\)。

\[P(x_1\lt X\le x_2)=F(x_2)-F(x_1)\]

\[P(X>a)=1-F(a),\qquad P(X=a)=F(a)-F(a-0)\]

离散型分布函数为阶梯函数，跳跃点对应取值，跳跃高度即该点概率。

2.5 连续型随机变量与密度函数

先这么理解连续型随机变量不能问“刚好等于某个点”的概率，因为单个点概率是 0。真正有意义的是问“落在某个区间”的概率，也就是密度曲线下面那一段面积。

\(F(x)=\int_{-\infty}^{x}f(t)\,dt\)，密度 \(f(x)\) 满足：

\[f(x)\ge0,\qquad \int_{-\infty}^{+\infty}f(x)\,dx=1\]

\[P(a\lt X\le b)=\int_a^b f(x)\,dx=F(b)-F(a)\]

连续点处 \(F'(x)=f(x)\)；且 \(P(X=a)=0\)，故区间端点是否取到不影响概率。

2.6 常见连续型分布（均匀 / 指数 / 正态）

先这么理解均匀分布表示区间内“哪里都一样可能”；指数分布常表示等待时间；正态分布就是钟形曲线，做题时通常先标准化成 \(N(0,1)\)，再查 \(\Phi\)。

均匀分布 \(X\sim U(a,b)\)：\(f(x)=\dfrac{1}{b-a}\,(a\lt x\lt b)\)，概率只与区间长度有关。

指数分布（率 λ）：\(f(x)=\lambda e^{-\lambda x}\,(x>0)\)，\(P(X>x)=e^{-\lambda x}\)，具无记忆性 \(P(X>s+t\mid X>s)=P(X>t)\)。

正态分布 \(X\sim N(\mu,\sigma^2)\)：

\[f(x)=\frac{1}{\sqrt{2\pi}\,\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]

标准化 \(Z=\dfrac{X-\mu}{\sigma}\sim N(0,1)\)，于是

\[P(a\lt X\lt b)=\Phi\!\Big(\tfrac{b-\mu}{\sigma}\Big)-\Phi\!\Big(\tfrac{a-\mu}{\sigma}\Big)\]

对称性 \(\Phi(-x)=1-\Phi(x)\)，\(P(|Z|\lt a)=2\Phi(a)-1\)；上分位点 \(\Phi(z_\alpha)=1-\alpha\)。

易错点\(N(\mu,\sigma^2)\) 的第二个参数是方差 \(\sigma^2\)，不是标准差！

2.7 随机变量函数的分布 Y=g(X)

先这么理解如果 Y 是由 X 变出来的，先问一句：Y 取这个范围时，X 应该落在哪个范围？离散题把相同结果的概率合并，连续题常用分布函数法。

离散型：把相同的 \(g(x_k)\) 取值合并，概率相加。

连续型 · 分布函数法：\(F_Y(y)=P(g(X)\le y)\) 转化为 X 的范围积分，再求导得 \(f_Y(y)=F_Y'(y)\)。

公式法（g 单调可导，反函数 \(x=h(y)\)）：\(f_Y(y)=f_X(h(y))\,|h'(y)|\)。

常用结论：\(X\sim N(\mu,\sigma^2),\ Y=aX+b\ (a\ne0)\Rightarrow Y\sim N(a\mu+b,\,a^2\sigma^2)\)。

04

随机变量的数字特征

4.1 数学期望 E(X)

先这么理解数学期望就是“长期平均值”。不是说每次都等于这个数，而是重复很多很多次以后，平均结果会靠近它。函数期望就是先把 X 代进函数，再求这个新结果的平均值。

离散 \(E(X)=\sum_i x_ip_i\)；连续 \(E(X)=\int_{-\infty}^{+\infty}xf(x)\,dx\)。

函数期望（无需先求 Y 的分布）：\(E[g(X)]=\sum g(x_i)p_i\) 或 \(\int g(x)f(x)\,dx\)。

性质：\(E(C)=C\)，\(E(CX)=CE(X)\)，\(E(X+Y)=E(X)+E(Y)\)；X、Y 独立时 \(E(XY)=E(X)E(Y)\)。

分布	期望 E(X)	方差 D(X)
两点 / 伯努利	\(p\)	\(p(1-p)\)
二项 \(B(n,p)\)	\(np\)	\(np(1-p)\)
泊松 \(P(\lambda)\)	\(\lambda\)	\(\lambda\)
均匀 \(U(a,b)\)	\(\dfrac{a+b}{2}\)	\(\dfrac{(b-a)^2}{12}\)
指数（率 λ）	\(\dfrac{1}{\lambda}\)	\(\dfrac{1}{\lambda^2}\)
正态 \(N(\mu,\sigma^2)\)	\(\mu\)	\(\sigma^2\)

4.2 方差 D(X)

先这么理解方差衡量“数据围着平均值波动得大不大”。方差越大，结果越不稳定；方差越小，结果越集中。做题时常用 \(E(X^2)-[E(X)]^2\)，因为比定义式更好算。

定义 \(D(X)=E[(X-E(X))^2]\)，常用计算式：

\[D(X)=E(X^2)-[E(X)]^2\]

性质：\(D(C)=0\)，\(D(aX+b)=a^2D(X)\)；独立时 \(D\big(\sum X_i\big)=\sum D(X_i)\)。

做题步骤先求 \(E(X)\) → 再求 \(E(X^2)\) → 用 \(D(X)=E(X^2)-[E(X)]^2\)。

4.4 矩

先这么理解“矩”可以先理解成对随机变量做不同层次的平均。一阶原点矩就是均值，二阶中心矩就是方差。后面矩估计法就是用样本的这些平均特征去反推参数。

k 阶原点矩 \(\alpha_k=E(X^k)\)；k 阶中心矩 \(\mu_k=E[(X-E(X))^k]\)。

重要关系：\(\alpha_1=E(X)\)，\(\mu_2=D(X)\)（二阶中心矩即方差）。

05

大数定律与中心极限定理

5.1 大数定律

先这么理解大数定律说的是：做的次数越多，样本平均值越靠谱，会越来越接近真实平均值。它解释了为什么可以用大量样本的平均来估计总体。

辛钦大数定律（独立同分布，\(E(X_i)=\mu\)）：样本均值依概率收敛于 μ。

\[\lim_{n\to\infty}P\Big(\big|\tfrac{1}{n}\textstyle\sum_{i=1}^nX_i-\mu\big|\lt\varepsilon\Big)=1\]

伯努利大数定律：频率 \(\dfrac{m}{n}\) 依概率收敛于概率 p——为“用频率估计概率、样本推断总体”提供依据。

5.2 中心极限定理

先这么理解中心极限定理说的是：很多独立随机影响加在一起，结果往往近似正态分布。它的用处是把复杂的和或平均值问题，转成正态分布题来算。

列维–林德伯格（独立同分布，\(E(X_i)=\mu,D(X_i)=\sigma^2\)）：

\[\frac{\sum_{i=1}^nX_i-n\mu}{\sigma\sqrt n}\xrightarrow{\ d\ }N(0,1)\]

\[\sum X_i\approx N(n\mu,\,n\sigma^2),\qquad \overline X\approx N\Big(\mu,\tfrac{\sigma^2}{n}\Big)\]

棣莫弗–拉普拉斯（\(X\sim B(n,p)\)，n 较大）：\(\dfrac{X-np}{\sqrt{npq}}\approx N(0,1)\)。

做题步骤识别独立同分布的和/均值 → 求单个 μ、σ² → 标准化 → 用 \(\Phi(x)\) 计算。

06

样本及抽样分布

6.1–6.2 基本概念与常用统计量

先这么理解总体是你真正想了解的全部对象，样本是你实际拿到的一部分数据。统计量就是只用样本算出来的量，所以不能偷偷含有未知的总体参数。

简单随机样本：\(X_1,\dots,X_n\) 相互独立且与总体同分布。统计量是样本的函数且不含未知参数。

样本均值 \(\overline X=\dfrac{1}{n}\sum X_i\)，样本方差 \(S^2=\dfrac{1}{n-1}\sum (X_i-\overline X)^2\)。

\[E(\overline X)=\mu,\qquad D(\overline X)=\frac{\sigma^2}{n},\qquad E(S^2)=\sigma^2\]

易错点含未知参数（如 μ）的表达式不是统计量。样本方差分母是 \(n-1\)。

6.3 三大抽样分布与正态总体结论

先这么理解抽样分布是在问“样本算出来的统计量本身服从什么分布”。不用一开始背细节，先会选：均值常碰到正态或 t，方差常碰到 \(\chi^2\)，两个方差比常碰到 F。

χ²：\(\chi^2=\sum_{i=1}^nZ_i^2\sim\chi^2(n)\)（\(Z_i\sim N(0,1)\) 独立）。
t：\(T=\dfrac{Z}{\sqrt{Y/n}}\sim t(n)\)；F：\(F=\dfrac{U/m}{V/n}\sim F(m,n)\)。

正态总体 \(N(\mu,\sigma^2)\) 下：\(\overline X\sim N(\mu,\tfrac{\sigma^2}{n})\)，\(\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\)，且 \(\overline X\) 与 \(S^2\) 独立。

\[\sigma^2\text{ 已知：}\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)\qquad \sigma^2\text{ 未知：}\frac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)\]

选分布口诀均值+方差已知→正态；均值+方差未知→t；单方差→χ²；两方差比→F。

07

参数估计

7.1–7.2 点估计与评价标准

先这么理解参数估计就是总体里有个未知数，我们用样本算一个数去猜它。无偏性看“平均猜得准不准”，有效性看“猜得稳不稳”，一致性看“样本越多会不会越来越准”。

用统计量 \(\hat\theta(X_1,\dots,X_n)\) 估计未知参数 θ（估计量不含未知参数）。

无偏性：\(E(\hat\theta)=\theta\)；偏差 \(\text{Bias}=E(\hat\theta)-\theta\)。
有效性：两个无偏估计中方差较小者更有效。
一致性：\(\hat\theta_n\xrightarrow{P}\theta\)。

7.3 矩估计法

先这么理解矩估计法的想法很朴素：总体的平均值应该和样本平均值差不多。先用参数写出总体矩，再让它等于样本矩，最后把参数解出来。

思想：用样本矩估计总体矩。含 k 个参数则令前 k 阶矩相等：\(A_1=\alpha_1,\dots,A_k=\alpha_k\)，其中 \(A_1=\overline X,\ A_2=\tfrac{1}{n}\sum X_i^2\)。

分布	矩估计
泊松 \(P(\lambda)\)	\(\hat\lambda=\overline X\)
指数（率 λ）	\(\hat\lambda=1/\overline X\)
伯努利	\(\hat p=\overline X\)
\(B(m,p)\)（m 已知）	\(\hat p=\overline X/m\)
正态 \(N(\mu,\sigma^2)\)	\(\hat\mu=\overline X,\ \widehat{\sigma^2}=\tfrac{1}{n}\sum(X_i-\overline X)^2\)
均匀 \(U(0,\theta)\)	\(\hat\theta=2\overline X\)

做题步骤定参数个数 → 算总体矩（先 \(E(X)\)，必要时 \(E(X^2)\)）→ 令等于样本矩 → 解出 \(\hat\theta\) → 检查范围。

概率论与数理统计

把每个考点读懂，再把每道题做透

概率论的基本概念

随机变量及其分布

随机变量的数字特征

大数定律与中心极限定理

样本及抽样分布

参数估计

原卷真题逐题精解

用小题把概念真正吃透