跳到主要内容

概率论快速回顾

基本概率论

在统计学中,我们把从概率分布中抽取样本的过程称为抽样(sampling)。 笼统来说,可以把分布(distribution)看作对事件的概率分配, 稍后我们将给出的更正式定义。 将概率分配给一些离散选择的分布称为多项分布(multinomial distribution)。

下面是一个使用 PyTorch 的例子,演示如何创建并可视化离散随机变量的概率分布。我们将使用一个简单的均匀分布作为示例。

import torch
import matplotlib.pyplot as plt

# 创建一个离散随机变量的均匀分布,假设有6个可能的取值
num_values = 6


# 这部分代码创建了一个包含 num_values 个元素的张量,每个元素的值都为1。这是一个等于1的张量,它的长度由 num_values 决定。
# / num_values:这部分代码将上面创建的张量中的每个元素除以 num_values,即将每个元素的值均匀分布在 [0, 1] 的范围内。
# 这是为了确保概率质量函数中每个可能取值的概率相等,从而得到均匀分布。所以,这个 probabilities 是一个包含每个可能取值的概率的张量。
probabilities = torch.ones(num_values) / num_values # 均匀分布,每个值的概率相等

# 创建随机变量,指定可能的取值和对应的概率
# torch.distributions.Categorical 实例化后,可以使用它的方法来生成随机样本、计算概率密度等操作。
random_variable = torch.distributions.Categorical(probabilities)

# 使用了 sample 方法来生成 1000 个随机样本。
samples = random_variable.sample((1000,)) # 生成1000个样本

# 绘制概率质量函数的直方图
plt.hist(samples.numpy(), bins=num_values, density=True, rwidth=0.8)
plt.xticks(range(num_values))
plt.xlabel('The Value of Random Variables') # 随机变量的取值
plt.ylabel('probability density') # 概率密度
plt.title('Evenly distributed probability mass function') # 均匀分布的概率质量函数
plt.show()

png

概率论公理

概率论的基础是概率论公理,它定义了概率的数学基础,以下是概率论的三个主要公理

1. 样本空间和事件:

  • 样本空间(Sample Space):通常用大写希腊字母 Ω (Omega) 表示,表示所有可能的基本结果的集合。例如,当掷一个六面骰子时,Ω 可以表示为 {1, 2, 3, 4, 5, 6}。
  • 事件(Event):事件是样本空间的子集,通常用大写字母表示。例如,A 表示掷出偶数的事件,A = {2, 4, 6}。

2. 非负性:

  • 对于任何事件 A,概率 P(A) 总是非负的:P(A) ≥ 0。

3. 归一性(规范性):

  • 整个样本空间的概率为1:P(Ω) = 1。

4. 可列可加性(可数可加性):

  • 如果事件 A1, A2, A3, ... 是两两互斥的(即它们没有共同结果),那么它们的并集的概率等于各自概率的总和:
  • 如果 A1, A2, A3, ... 两两互斥,则有:P(A1 ∪ A2 ∪ A3 ∪ ...) = P(A1) + P(A2) + P(A3) + ...

接下来,让我们以掷骰子的例子来说明这些公理:

样本空间:假设我们掷一颗六面的骰子,样本空间 Ω 就是 {1, 2, 3, 4, 5, 6}。

事件:我们可以定义以下事件:

  • A:掷出偶数,A = {2, 4, 6}。
  • B:掷出奇数,B = {1, 3, 5}。
  • C:掷出小于等于3的数,C = {1, 2, 3}。

非负性:对于任何事件,概率都是非负的。例如,P(A) ≥ 0,P(B) ≥ 0,P(C) ≥ 0。

归一性:整个样本空间的概率为1,即 P(Ω) = 1。

可列可加性(可数可加性):如果事件 A1,A2,A3,...A_1, A_2, A_3, ... 两两互斥(即它们没有共同结果),那么它们的并集的概率等于各自概率的总和: P(A1A2A3...)=iP(Ai)P(A_1 \cup A_2 \cup A_3 \cup ...) = \sum_{i} P(A_i)

在这里,i\sum_{i} 表示对所有 ii 的求和,P(Ai)P(A_i) 表示事件 AiA_i 的概率。这个公式使用了求和符号 \sum 来表示多个事件的概率之和,从而简化了可列可加性公理的表达。

使用 P()=0P(\emptyset) = 0 表示不可能事件

这些概率公理为概率论提供了坚实的数学基础,允许我们在随机事件和概率分布方面进行严格的数学分析和推理。

离散随机变量和连续随机变量

离散(discrete)随机变量(如骰子的每一面) 和连续(continuous)随机变量(如人的体重和身高)之间存在微妙的区别

离散随机变量和连续随机变量是概率论和统计学中两种不同类型的随机变量,它们之间的主要区别在于可能的取值和概率分布的性质。

离散随机变量

  1. 可能的取值:离散随机变量的可能取值是有限的或可数无限的,通常是整数或一些离散的值。这意味着它们只能取特定的数值,不允许在这些值之间插入其他值。

  2. 概率分布:离散随机变量的概率分布通常由概率质量函数(Probability Mass Function, PMF)来描述,它指定了每个可能取值的概率。

  3. 例子:抛硬币的结果(正面或反面),掷骰子的结果(1、2、3、4、5、6),抽取一副扑克牌中的一张牌(52张中的任一张)等都是离散随机变量的例子。

连续随机变量

  1. 可能的取值:连续随机变量的可能取值是连续的实数范围,通常是某个区间内的任意实数值。这意味着它们可以在任意两个值之间取任意值,包括无限多个值。

  2. 概率分布:连续随机变量的概率分布通常由概率密度函数(Probability Density Function, PDF)来描述,它表示在某个值附近取值的概率密度。

  3. 例子:人的身高、温度、时间、股票价格等都是连续随机变量的例子。

举个例子:

离散随机变量的例子:考虑投掷一个六面骰子的情况。在这里,随机变量X表示掷骰子后出现的点数,可能的取值是{1, 2, 3, 4, 5, 6}。X是一个离散随机变量,它的概率分布可以表示为:

  • P(X = 1) = 1/6
  • P(X = 2) = 1/6
  • P(X = 3) = 1/6
  • P(X = 4) = 1/6
  • P(X = 5) = 1/6
  • P(X = 6) = 1/6

连续随机变量的例子:考虑一个连续随机变量Y,表示从0到1之间的随机小数。Y的可能取值是连续的实数范围,可以是任意小数。Y是一个连续随机变量,其概率分布可以用概率密度函数来表示,例如均匀分布的密度函数:

  • f(y) = 1,如果0 ≤ y ≤ 1
  • f(y) = 0,如果y < 0 或 y > 1

这些例子展示了离散随机变量和连续随机变量之间的区别,包括它们的可能取值和概率描述方式。

处理多个随机变量

联合概率

联合概率是概率论中的一个概念,它描述了两个或多个随机事件同时发生的概率。具体来说,联合概率表示事件 A 和事件 B(或更多事件)同时发生的概率。联合概率通常用 P(A, B) 或 P(A ∩ B) 表示,其中 "∩" 表示交集。

联合概率的计算方式取决于事件是独立还是相关的。以下是两种情况的计算方法:

  1. 独立事件的联合概率:如果事件 A 和事件 B 是独立的,意味着它们的发生不受彼此影响,那么它们的联合概率可以简单地计算为它们各自的概率的乘积。

    P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B)

    这表示同时发生事件 A 和事件 B 的概率等于事件 A 的概率乘以事件 B 的概率。

  2. 相关事件的联合概率:如果事件 A 和事件 B 是相关的,意味着它们的发生可能受彼此影响,那么联合概率的计算通常需要更复杂的方法,例如条件概率和贝叶斯定理。在这种情况下,联合概率可能不等于各自概率的乘积。

联合概率在统计学和概率论中广泛应用,它可以用于分析多个随机事件之间的关系以及事件的联合分布。

条件概率

条件概率是指在给定某一事件发生的条件下,另一事件发生的概率。它是概率论中的一个重要概念,用于描述随机事件之间的依赖关系。条件概率通常用 P(A | B) 表示,读作 "在事件 B 发生的条件下事件 A 发生的概率",其中 "|" 表示 "给定"。

条件概率的计算公式为:

P(AB)=P(AB)P(B)P(A | B) = \frac{P(A \cap B)}{P(B)}

其中:

  • P(AB)P(A | B) 表示在事件 B 发生的条件下事件 A 发生的概率。
  • P(AB)P(A \cap B) 表示事件 A 和事件 B 同时发生的联合概率。
  • P(B)P(B) 表示事件 B 发生的概率。

条件概率的重要性在于它允许我们在已知一些信息的情况下重新评估事件的概率。它用于解决各种实际问题,包括统计学、机器学习、贝叶斯推断、信号处理等领域。

以下是一些示例,说明了条件概率的应用:

  1. 天气预测:假设我们想计算明天下雨的概率,但我们知道今天是晴天。条件概率可以帮助我们估计在给定今天是晴天的情况下,明天下雨的概率。

  2. 医学诊断:在医学领域,条件概率用于计算在某些症状出现的情况下,患者是否患有某种疾病的概率。

  3. 机器学习:条件概率在朴素贝叶斯分类器等机器学习算法中起着关键作用,用于估计给定特征条件下某一类别的概率。

总之,条件概率是概率论的一个重要概念,用于量化和分析事件之间的依赖关系,以及在已知信息的情况下重新评估事件的概率。

贝叶斯定理

贝叶斯定理(Bayes' Theorem)是概率论中的一个基本定理,它描述了在已知一些先验信息的情况下,如何更新我们对一个事件的概率估计。该定理以数学方式表达了条件概率的计算方式,允许我们根据新的证据来调整我们对事件的概率信念。

贝叶斯定理的数学表达如下:

P(AB)=P(BA)P(A)P(B)P(A | B) = \frac{P(B | A) \cdot P(A)}{P(B)}

其中:

  • P(AB)P(A | B) 是在事件 B 发生的条件下事件 A 发生的概率,也称为后验概率(Posterior Probability)。
  • P(BA)P(B | A) 是在事件 A 发生的条件下事件 B 发生的概率,也称为似然性(Likelihood)。
  • P(A)P(A) 是事件 A 的先验概率(Prior Probability),即在考虑任何新证据之前,我们对事件 A 的概率信念。
  • P(B)P(B) 是事件 B 的边际概率(Marginal Probability),表示事件 B 在任何情况下发生的概率。

贝叶斯定理的核心思想是通过结合先验概率和似然性来计算后验概率。它允许我们根据新的观察或证据(似然性)来更新我们对事件的信念(先验概率)。这种更新是特别有用的,因为它使我们能够从数据中学习,并在不断获取新信息时不断调整我们的概率估计。

贝叶斯定理在各种领域中都有广泛的应用,包括机器学习、统计学、医学诊断、自然语言处理、信号处理等。在机器学习中,朴素贝叶斯分类器和贝叶斯网络等模型使用了贝叶斯定理来进行概率推断和分类任务。

边际化

边际化(Marginalization)是概率论和统计学中的一个重要概念,它用于从多维随机变量的联合分布中计算较低维度随机变量的分布。边际化的目标是将多维分布中的一部分变量"积分掉"或"消除",以获得较低维度变量的概率分布。这对于在处理复杂问题时简化分析和计算非常有用。

提示

说人话就是为了能进行事件概率求和,我们需要求和法则(sum rule),即 B 的概率相当于计算 A 的所有可能选择,并将所有选择的联合概率聚合在一起:

在数学上,边际化是通过对多维随机变量的联合概率分布进行积分或求和来实现的。具体地,对于两个随机变量(或更多)的联合分布,边际化可以用以下方式表示:

  1. 连续随机变量的边际化:对于两个连续随机变量X和Y的联合概率密度函数f(x,y)f(x, y),要计算边际分布 P(X)P(X)P(Y)P(Y),可以使用积分来边际化:

    P(X)=f(x,y)dyP(X) = \int f(x, y) dy
    P(Y)=f(x,y)dxP(Y) = \int f(x, y) dx

    这里,P(X)P(X) 表示随机变量X的边际分布,P(Y)P(Y) 表示随机变量Y的边际分布。

  2. 离散随机变量的边际化:对于两个离散随机变量X和Y的联合概率质量函数P(X=x,Y=y)P(X=x, Y=y),要计算边际分布 P(X)P(X)P(Y)P(Y),可以使用求和来边际化:

    P(X=x)=yP(X=x,Y=y)P(X=x) = \sum_y P(X=x, Y=y)
    P(Y=y)=xP(X=x,Y=y)P(Y=y) = \sum_x P(X=x, Y=y)

    这里,P(X=x)P(X=x) 表示随机变量X的边际分布,P(Y=y)P(Y=y) 表示随机变量Y的边际分布。

边际化的实际应用包括:

  • 在概率图模型(如贝叶斯网络)中,边际化用于计算某个节点的边际概率分布,不考虑其他节点。
  • 在统计推断中,通过边际化可以计算部分参数的边际分布,从而进行参数估计和模型比较。
  • 在机器学习中,边际化有助于简化复杂模型的推断和训练,特别是在涉及多维随机变量的情况下。

总之,边际化是一种重要的数学操作,用于从多维随机变量的联合分布中提取单个随机变量的分布,从而简化分析和问题求解。

独立性

在概率论和统计学中,独立性是指两个或多个随机事件之间的关系,其中一个事件的发生不受另一个事件发生与否的影响。如果两个事件是独立的,那么它们之间没有相互依赖或关联关系。

具体来说,两个事件A和B是独立的,当且仅当满足以下条件:

  1. 事件 A 的发生概率不受事件 B 的发生与否的影响,即 P(AB)=P(A)P(A | B) = P(A)
  2. 事件 B 的发生概率不受事件 A 的发生与否的影响,即 P(BA)=P(B)P(B | A) = P(B)

这两个条件可以合并为一个条件:

P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B)

这个条件表示,两个事件同时发生的概率等于它们各自发生的概率的乘积。如果上述条件成立,我们就说事件A和事件B是独立的。

独立性的概念在概率论和统计学中非常重要,因为它允许我们简化概率计算和建模。如果两个事件是独立的,我们可以将它们的联合概率分布简化为它们各自的概率分布的乘积。这在贝叶斯统计、概率图模型、抽样方法等许多领域都有广泛应用。

举例来说,如果我们投掷一枚公正的硬币两次,事件A表示第一次投掷得到正面,事件B表示第二次投掷得到正面。由于硬币的每次投掷是独立的,事件A和事件B是独立的,因此:

P(AB)=P(A)P(B)=1212=14P(A \cap B) = P(A) \cdot P(B) = \frac{1}{2} \cdot \frac{1}{2} = \frac{1}{4}

这意味着同时得到两次正面的概率是1/4。

对上面概念的实际应用

当涉及联合概率、条件概率、贝叶斯定理、边际化和独立性时,一个常见的示例是贝叶斯定理的应用于疾病诊断问题。以下是一个用于说明这些概念如何相互关联的例子:

问题描述:假设有一种罕见的疾病,我们希望通过对患者进行测试来确定他们是否患有这种疾病。我们知道测试的准确性,以及疾病的概率。我们想要使用贝叶斯定理来估计一个患者患有该疾病的后验概率,并了解这些概念如何相互关联。

相关变量

  • A:患者患有该疾病的事件。
  • B:测试结果为阳性的事件。
  • P(A)P(A):疾病的先验概率,即在没有测试信息的情况下,患者患有该疾病的概率。
  • P(BA)P(B | A):在患有该疾病的情况下,测试结果为阳性的概率(真正例率)。
  • P(B¬A)P(B | \neg A):在没有患有该疾病的情况下,测试结果为阳性的概率(假正例率)。

下面是这些概念如何相互关联的示例:

  1. 联合概率:联合概率是事件A和事件B同时发生的概率,即患者患有疾病并且测试结果为阳性的概率。这可以用一个二维的概率表格表示,如下所示:

    测试结果为阳性 (B)测试结果为阴性 (¬B\neg B)
    患有疾病 (A)P(AB)P(A \cap B)P(A¬B)P(A \cap \neg B)
    未患疾病 (¬A\neg A)P(¬AB)P(\neg A \cap B)P(¬A¬B)P(\neg A \cap \neg B)
  2. 条件概率:条件概率是在已知某些信息的情况下,事件的发生概率。在这个问题中,条件概率包括:

    • P(AB)P(A | B):在测试结果为阳性的情况下,患者患有疾病的后验概率。
    • P(A¬B)P(A | \neg B):在测试结果为阴性的情况下,患者患有疾病的后验概率。
  3. 贝叶斯定理:贝叶斯定理是用于更新事件概率的公式,基于先验概率和条件概率。在这个问题中,它表示为:

    P(AB)=P(BA)P(A)P(B)P(A | B) = \frac{P(B | A) \cdot P(A)}{P(B)}

    这个公式允许我们计算在测试结果为阳性的情况下,患者患有疾病的后验概率。

  4. 边际化:边际化涉及计算部分变量的概率分布,通常通过积分或求和来实现。在这个问题中,边际化可以用来计算测试结果的边际概率,即 P(B)P(B),而不考虑是否患有疾病。这可以通过将联合概率表格中的两行相加来实现。

  5. 独立性:独立性表示事件A(患有疾病)和事件B(测试结果为阳性)是否相互独立。如果测试的准确性与患病与否无关,即 P(BA)=P(B¬A)P(B | A) = P(B | \neg A),那么事件A和事件B是独立的。否则,它们不是独立的。

这个示例说明了联合概率、条件概率、贝叶斯定理、边际化和独立性在一个实际问题中如何相互关联,并如何用于疾病诊断和概率估计。这些概念在概率论和统计学中有广泛的应用。请注意,具体的数值和图表可能根据实际情况而变化。

期望和方差是什么?

期望和方差是统计学中两个重要的概念,它们用于描述随机变量的特征和分布。

  1. 期望(Expectation)

    期望是随机变量的平均值或预期值。它用于衡量随机变量在一次次试验中的平均表现。如果随机变量是离散的,其期望可以通过以下公式计算:

    E(X)=xxP(X=x)E(X) = \sum_{x} x \cdot P(X=x)

    如果随机变量是连续的,其期望可以通过以下积分计算:

    E(X)=xf(x)dxE(X) = \int x \cdot f(x) dx

    其中,E(X)E(X) 表示随机变量 XX 的期望,xx 表示可能的取值,P(X=x)P(X=x)f(x)f(x) 表示随机变量 XX 取值为 xx 的概率密度函数(对于连续变量)。

    期望可以理解为随机变量在无限次重复实验中的平均表现,它是随机变量的一个重要统计特征,用于描述其中心位置。

  2. 方差(Variance)

    方差是随机变量离其期望的平均距离的平方。它用于衡量随机变量的分散程度或波动性。方差的计算方式为:

    Var(X)=E[(XE(X))2]\text{Var}(X) = E[(X - E(X))^2]

    其中,Var(X)\text{Var}(X) 表示随机变量 XX 的方差,E(X)E(X) 表示 XX 的期望。方差告诉我们随机变量的值在期望周围的分散程度,方差越大,随机变量的值越分散。

    方差的平方根被称为标准差,标准差是方差的一种常用的衡量方式。

这两个概念在统计学和概率论中广泛应用。期望和方差是描述随机变量分布特性的重要工具,它们用于估计、建模和分析各种随机现象和数据集。