P

概率论与数理统计

Final Review

Probability & Statistics

把每个考点读懂,再把每道题做透

按章节整理的核心定义、公式与易错点,配合期末原卷 21 道真题逐题精解。点击章节卡片展开,公式自动排版,随时回看。

7
核心章节
21
原卷真题
反复复习
01

概率论的基本概念

1.1 随机事件 · 关系与运算
先这么理解概率题先不要急着套公式,先把文字翻译成“哪些情况算发生”。样本空间就是所有可能结果,事件就是其中一部分结果;并集是“至少一个”,交集是“同时”,对立事件是“刚好没发生”。

样本空间 Ω:全体样本点 ω 的集合;样本空间的子集称为随机事件。必然事件记 Ω,不可能事件记

事件关系:

  • 包含 A⊆B:A 发生必导致 B 发生。
  • 和事件 A∪B:至少一个发生;积事件 AB:同时发生。
  • 差事件 \(A-B=A\cap\overline{B}\):A 发生且 B 不发生。
  • 对立事件 \(\overline{A}=\Omega-A\);互不相容 \(AB=\varnothing\)。

常用运算律(德摩根律):

\[\overline{A\cup B}=\overline{A}\cap\overline{B},\qquad \overline{A\cap B}=\overline{A}\cup\overline{B}\]
\[A\cup(B\cap C)=(A\cup B)\cap(A\cup C)\]

事件语言转换(A、B、C 三事件):

  • 恰好发生一种:\(A\overline{B}\overline{C}\cup \overline{A}B\overline{C}\cup \overline{A}\overline{B}C\)
  • 恰好发生两种:\(AB\overline{C}\cup A\overline{B}C\cup \overline{A}BC\)
  • 至少一种:\(A\cup B\cup C\);都不发生:\(\overline{A\cup B\cup C}\)
易错点
  • “至少一个”用并集,常用对立事件简化;“都发生”是交集。
  • “互不相容”只表示不能同时发生;“对立”还要求二者必有一个发生。
1.2 频率与概率 · 加法公式
先这么理解频率是“做了很多次后出现的比例”,概率是这个比例长期稳定下来的理论值。加法公式解决的是“两个事件合在一起发生”的概率,关键是别把重叠部分算两遍。

频率 \(f_n(A)=\dfrac{n_A}{n}\);当 n 增大时频率稳定于常数 p,即概率 \(P(A)=p\)。

基本性质:\(P(\varnothing)=0,\ P(\Omega)=1,\ 0\le P(A)\le1\);\(P(\overline{A})=1-P(A)\);\(P(A-B)=P(A)-P(AB)\)。

加法公式:

\[P(A\cup B)=P(A)+P(B)-P(AB)\]
\[P(A\cup B\cup C)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)\]
易错点
  • \(P(A)=0\) 不等于事件不可能;\(P(A)=1\) 不等于必然。
  • 两事件不互斥时不能直接相加,必须减去交集概率 \(P(AB)\)。
1.3 古典概型与几何概型
先这么理解古典概型就是“数个数”:总共有多少种等可能结果,其中有多少种符合题意。几何概型就是“量长度、面积或体积”:符合条件的区域占总区域多少。

古典概型(有限 + 等可能):\(P(A)=\dfrac{m}{n}=\dfrac{\text{有利基本事件数}}{\text{基本事件总数}}\)。

计数:排列 \(A_n^k=\dfrac{n!}{(n-k)!}\)(有序),组合 \(C_n^k=\dfrac{n!}{k!(n-k)!}\)(无序)。

抽样模型(7 黑 3 白,取 3 次):

\[\text{有放回 2黑1白:}C_3^2\left(\tfrac{7}{10}\right)^2\left(\tfrac{3}{10}\right)\qquad \text{无放回:}\frac{C_7^2C_3^1}{C_{10}^3}\]

超几何分布(N 件含 D 件次品,取 n 件恰 k 件次品):

\[P(X=k)=\frac{C_D^kC_{N-D}^{n-k}}{C_N^n}\]

几何概型:\(P(A)=\dfrac{g\text{ 的测度}}{G\text{ 的测度}}\)(长度/面积/体积)。

易错点
  • 古典概型须同时满足“有限”和“等可能”;计算前先判断是否考虑顺序。
  • “无放回”一般不能直接用独立重复试验公式。
1.4 条件概率 · 全概率 · 贝叶斯
先这么理解条件概率是“已知 A 已经发生,在这个新范围里看 B 的概率”。全概率是“按原因分组再相加”。贝叶斯是“已经看到结果,反过来猜最可能来自哪个原因”。

条件概率:\(P(B\mid A)=\dfrac{P(AB)}{P(A)}\)(\(P(A)>0\))。

乘法公式:\(P(AB)=P(A)P(B\mid A)=P(B)P(A\mid B)\)。

全概率公式(\(B_1,\dots,B_n\) 是划分):

\[P(A)=\sum_{i=1}^{n}P(B_i)P(A\mid B_i)\]

贝叶斯公式(由结果反推原因):

\[P(B_i\mid A)=\frac{P(B_i)P(A\mid B_i)}{\sum_{j=1}^{n}P(B_j)P(A\mid B_j)}\]
易错点
  • 条件概率会改变样本空间;\(P(B\mid A)\ne P(A\mid B)\)。
  • 全概率关键是找到互不相容且完备的事件组。
1.5 独立性 · 伯努利试验
先这么理解独立的意思是“一个事件发生,不会改变另一个事件发生的概率”。伯努利试验就是同一件事重复做很多次,每次只有成功/失败两种结果,且每次成功概率一样。

独立:\(P(AB)=P(A)P(B)\),等价于 \(P(B\mid A)=P(B)\)。若 A、B 独立,则 \(\overline A,B\) 等也独立。

独立 ≠ 互斥:互斥 \(AB=\varnothing\);有正概率的两事件,互斥与独立不能同时成立。

至少一个发生(独立时):

\[P\Big(\bigcup_{i=1}^n A_i\Big)=1-\prod_{i=1}^{n}\big(1-P(A_i)\big)\]

二项概率(n 重伯努利):

\[P(X=k)=C_n^k p^k q^{\,n-k},\quad q=1-p,\ k=0,1,\dots,n\]
技巧“至少一次” 用对立事件:\(P(X\ge1)=1-P(X=0)=1-q^{\,n}\)。
易错点
  • 两两独立 ⇏ 相互独立(相互独立还要求 \(P(A_1A_2A_3)=P(A_1)P(A_2)P(A_3)\))。
  • 无放回抽样一般不是伯努利模型。
02

随机变量及其分布

2.1–2.2 随机变量与离散型分布律
先这么理解随机变量就是给试验结果贴数字标签。离散型随机变量只会取一个个分开的值,比如 0、1、2;分布律就是把每个值对应的概率列出来。

随机变量 \(X=X(e)\) 把试验结果数值化。离散型 X 的分布律 \(P(X=x_k)=p_k\) 必须满足:

\[p_k\ge0,\qquad \sum_k p_k=1\]
常用归一化 \(\sum p_k=1\) 是求待定常数的核心方程(含等比/指数级数)。
2.3 常见离散型分布(0-1 / 二项 / 泊松)
先这么理解0-1 分布看一次成败;二项分布看 n 次里成功几次;泊松分布常用来描述一段时间或空间里“某事件出现几次”,比如来电数、缺陷数。
分布分布律记号 / 备注
0-1 分布\(P(X=k)=p^k(1-p)^{1-k},k=0,1\)两点分布
二项分布\(P(X=k)=C_n^kp^k(1-p)^{n-k}\)\(X\sim B(n,p)\),n 次独立试验成功次数
泊松分布\(P(X=k)=\dfrac{\lambda^k e^{-\lambda}}{k!}\)\(X\sim P(\lambda),\lambda>0\)

泊松近似:n 大、p 小、\(\lambda=np\) 时,\(B(n,p)\approx P(\lambda)\);n=1 时二项分布即 0-1 分布。

2.4 分布函数 F(x)
先这么理解分布函数 \(F(x)\) 问的是“X 落在 x 左边的概率有多少”。它像一个累计进度条,x 往右走,累计概率只会增加,不会减少。

\(F(x)=P(X\le x)\),性质:\(0\le F\le1\)、单调不减、右连续、\(F(-\infty)=0,F(+\infty)=1\)。

\[P(x_1\lt X\le x_2)=F(x_2)-F(x_1)\]
\[P(X>a)=1-F(a),\qquad P(X=a)=F(a)-F(a-0)\]

离散型分布函数为阶梯函数,跳跃点对应取值,跳跃高度即该点概率。

2.5 连续型随机变量与密度函数
先这么理解连续型随机变量不能问“刚好等于某个点”的概率,因为单个点概率是 0。真正有意义的是问“落在某个区间”的概率,也就是密度曲线下面那一段面积。

\(F(x)=\int_{-\infty}^{x}f(t)\,dt\),密度 \(f(x)\) 满足:

\[f(x)\ge0,\qquad \int_{-\infty}^{+\infty}f(x)\,dx=1\]
\[P(a\lt X\le b)=\int_a^b f(x)\,dx=F(b)-F(a)\]

连续点处 \(F'(x)=f(x)\);且 \(P(X=a)=0\),故区间端点是否取到不影响概率。

2.6 常见连续型分布(均匀 / 指数 / 正态)
先这么理解均匀分布表示区间内“哪里都一样可能”;指数分布常表示等待时间;正态分布就是钟形曲线,做题时通常先标准化成 \(N(0,1)\),再查 \(\Phi\)。

均匀分布 \(X\sim U(a,b)\):\(f(x)=\dfrac{1}{b-a}\,(a\lt x\lt b)\),概率只与区间长度有关。

指数分布(率 λ):\(f(x)=\lambda e^{-\lambda x}\,(x>0)\),\(P(X>x)=e^{-\lambda x}\),具无记忆性 \(P(X>s+t\mid X>s)=P(X>t)\)。

正态分布 \(X\sim N(\mu,\sigma^2)\):

\[f(x)=\frac{1}{\sqrt{2\pi}\,\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]

标准化 \(Z=\dfrac{X-\mu}{\sigma}\sim N(0,1)\),于是

\[P(a\lt X\lt b)=\Phi\!\Big(\tfrac{b-\mu}{\sigma}\Big)-\Phi\!\Big(\tfrac{a-\mu}{\sigma}\Big)\]

对称性 \(\Phi(-x)=1-\Phi(x)\),\(P(|Z|\lt a)=2\Phi(a)-1\);上分位点 \(\Phi(z_\alpha)=1-\alpha\)。

易错点\(N(\mu,\sigma^2)\) 的第二个参数是方差 \(\sigma^2\),不是标准差!
2.7 随机变量函数的分布 Y=g(X)
先这么理解如果 Y 是由 X 变出来的,先问一句:Y 取这个范围时,X 应该落在哪个范围?离散题把相同结果的概率合并,连续题常用分布函数法。

离散型:把相同的 \(g(x_k)\) 取值合并,概率相加。

连续型 · 分布函数法:\(F_Y(y)=P(g(X)\le y)\) 转化为 X 的范围积分,再求导得 \(f_Y(y)=F_Y'(y)\)。

公式法(g 单调可导,反函数 \(x=h(y)\)):\(f_Y(y)=f_X(h(y))\,|h'(y)|\)。

常用结论:\(X\sim N(\mu,\sigma^2),\ Y=aX+b\ (a\ne0)\Rightarrow Y\sim N(a\mu+b,\,a^2\sigma^2)\)。

04

随机变量的数字特征

4.1 数学期望 E(X)
先这么理解数学期望就是“长期平均值”。不是说每次都等于这个数,而是重复很多很多次以后,平均结果会靠近它。函数期望就是先把 X 代进函数,再求这个新结果的平均值。

离散 \(E(X)=\sum_i x_ip_i\);连续 \(E(X)=\int_{-\infty}^{+\infty}xf(x)\,dx\)。

函数期望(无需先求 Y 的分布):\(E[g(X)]=\sum g(x_i)p_i\) 或 \(\int g(x)f(x)\,dx\)。

性质:\(E(C)=C\),\(E(CX)=CE(X)\),\(E(X+Y)=E(X)+E(Y)\);X、Y 独立时 \(E(XY)=E(X)E(Y)\)。

分布期望 E(X)方差 D(X)
两点 / 伯努利\(p\)\(p(1-p)\)
二项 \(B(n,p)\)\(np\)\(np(1-p)\)
泊松 \(P(\lambda)\)\(\lambda\)\(\lambda\)
均匀 \(U(a,b)\)\(\dfrac{a+b}{2}\)\(\dfrac{(b-a)^2}{12}\)
指数(率 λ)\(\dfrac{1}{\lambda}\)\(\dfrac{1}{\lambda^2}\)
正态 \(N(\mu,\sigma^2)\)\(\mu\)\(\sigma^2\)
4.2 方差 D(X)
先这么理解方差衡量“数据围着平均值波动得大不大”。方差越大,结果越不稳定;方差越小,结果越集中。做题时常用 \(E(X^2)-[E(X)]^2\),因为比定义式更好算。

定义 \(D(X)=E[(X-E(X))^2]\),常用计算式:

\[D(X)=E(X^2)-[E(X)]^2\]

性质:\(D(C)=0\),\(D(aX+b)=a^2D(X)\);独立时 \(D\big(\sum X_i\big)=\sum D(X_i)\)。

做题步骤先求 \(E(X)\) → 再求 \(E(X^2)\) → 用 \(D(X)=E(X^2)-[E(X)]^2\)。
4.4 矩
先这么理解“矩”可以先理解成对随机变量做不同层次的平均。一阶原点矩就是均值,二阶中心矩就是方差。后面矩估计法就是用样本的这些平均特征去反推参数。

k 阶原点矩 \(\alpha_k=E(X^k)\);k 阶中心矩 \(\mu_k=E[(X-E(X))^k]\)。

重要关系:\(\alpha_1=E(X)\),\(\mu_2=D(X)\)(二阶中心矩即方差)。

05

大数定律与中心极限定理

5.1 大数定律
先这么理解大数定律说的是:做的次数越多,样本平均值越靠谱,会越来越接近真实平均值。它解释了为什么可以用大量样本的平均来估计总体。

辛钦大数定律(独立同分布,\(E(X_i)=\mu\)):样本均值依概率收敛于 μ。

\[\lim_{n\to\infty}P\Big(\big|\tfrac{1}{n}\textstyle\sum_{i=1}^nX_i-\mu\big|\lt\varepsilon\Big)=1\]

伯努利大数定律:频率 \(\dfrac{m}{n}\) 依概率收敛于概率 p——为“用频率估计概率、样本推断总体”提供依据。

5.2 中心极限定理
先这么理解中心极限定理说的是:很多独立随机影响加在一起,结果往往近似正态分布。它的用处是把复杂的和或平均值问题,转成正态分布题来算。

列维–林德伯格(独立同分布,\(E(X_i)=\mu,D(X_i)=\sigma^2\)):

\[\frac{\sum_{i=1}^nX_i-n\mu}{\sigma\sqrt n}\xrightarrow{\ d\ }N(0,1)\]
\[\sum X_i\approx N(n\mu,\,n\sigma^2),\qquad \overline X\approx N\Big(\mu,\tfrac{\sigma^2}{n}\Big)\]

棣莫弗–拉普拉斯(\(X\sim B(n,p)\),n 较大):\(\dfrac{X-np}{\sqrt{npq}}\approx N(0,1)\)。

做题步骤识别独立同分布的和/均值 → 求单个 μ、σ² → 标准化 → 用 \(\Phi(x)\) 计算。
06

样本及抽样分布

6.1–6.2 基本概念与常用统计量
先这么理解总体是你真正想了解的全部对象,样本是你实际拿到的一部分数据。统计量就是只用样本算出来的量,所以不能偷偷含有未知的总体参数。

简单随机样本:\(X_1,\dots,X_n\) 相互独立且与总体同分布。统计量是样本的函数且不含未知参数

样本均值 \(\overline X=\dfrac{1}{n}\sum X_i\),样本方差 \(S^2=\dfrac{1}{n-1}\sum (X_i-\overline X)^2\)。

\[E(\overline X)=\mu,\qquad D(\overline X)=\frac{\sigma^2}{n},\qquad E(S^2)=\sigma^2\]
易错点含未知参数(如 μ)的表达式不是统计量。样本方差分母是 \(n-1\)。
6.3 三大抽样分布与正态总体结论
先这么理解抽样分布是在问“样本算出来的统计量本身服从什么分布”。不用一开始背细节,先会选:均值常碰到正态或 t,方差常碰到 \(\chi^2\),两个方差比常碰到 F。

χ²:\(\chi^2=\sum_{i=1}^nZ_i^2\sim\chi^2(n)\)(\(Z_i\sim N(0,1)\) 独立)。
t:\(T=\dfrac{Z}{\sqrt{Y/n}}\sim t(n)\);F:\(F=\dfrac{U/m}{V/n}\sim F(m,n)\)。

正态总体 \(N(\mu,\sigma^2)\) 下:\(\overline X\sim N(\mu,\tfrac{\sigma^2}{n})\),\(\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\),且 \(\overline X\) 与 \(S^2\) 独立。

\[\sigma^2\text{ 已知:}\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)\qquad \sigma^2\text{ 未知:}\frac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)\]
选分布口诀均值+方差已知→正态;均值+方差未知→t;单方差→χ²;两方差比→F。
07

参数估计

7.1–7.2 点估计与评价标准
先这么理解参数估计就是总体里有个未知数,我们用样本算一个数去猜它。无偏性看“平均猜得准不准”,有效性看“猜得稳不稳”,一致性看“样本越多会不会越来越准”。

用统计量 \(\hat\theta(X_1,\dots,X_n)\) 估计未知参数 θ(估计量不含未知参数)。

  • 无偏性:\(E(\hat\theta)=\theta\);偏差 \(\text{Bias}=E(\hat\theta)-\theta\)。
  • 有效性:两个无偏估计中方差较小者更有效。
  • 一致性:\(\hat\theta_n\xrightarrow{P}\theta\)。
7.3 矩估计法
先这么理解矩估计法的想法很朴素:总体的平均值应该和样本平均值差不多。先用参数写出总体矩,再让它等于样本矩,最后把参数解出来。

思想:用样本矩估计总体矩。含 k 个参数则令前 k 阶矩相等:\(A_1=\alpha_1,\dots,A_k=\alpha_k\),其中 \(A_1=\overline X,\ A_2=\tfrac{1}{n}\sum X_i^2\)。

分布矩估计
泊松 \(P(\lambda)\)\(\hat\lambda=\overline X\)
指数(率 λ)\(\hat\lambda=1/\overline X\)
伯努利\(\hat p=\overline X\)
\(B(m,p)\)(m 已知)\(\hat p=\overline X/m\)
正态 \(N(\mu,\sigma^2)\)\(\hat\mu=\overline X,\ \widehat{\sigma^2}=\tfrac{1}{n}\sum(X_i-\overline X)^2\)
均匀 \(U(0,\theta)\)\(\hat\theta=2\overline X\)
做题步骤定参数个数 → 算总体矩(先 \(E(X)\),必要时 \(E(X^2)\))→ 令等于样本矩 → 解出 \(\hat\theta\) → 检查范围。

Past Paper · 21 Questions

原卷真题逐题精解

单选、填空、计算、应用四种题型。先自己动笔,再点开「显示解析」核对考点、思路与答案;标记已做,进度自动保存到本地。

已复习 0 / 21
没有匹配的题目,换个关键词试试。

Concept Practice · Extra

用小题把概念真正吃透

这些题不追求难度,重点是帮你把概念翻译成具体场景。先判断“这题在考什么”,再点开解析看为什么这么想。

扩展题 0
没有匹配的扩展题,换个关键词试试。