数据挖掘中的贝叶斯定理
贝叶斯定理基于可能与事件相关的条件的先验知识来描述事件的概率。换句话说,贝叶斯定理是条件概率的附加。
借助条件概率,可以找出给定H的X的概率,记为P(X | H) 。现在贝叶斯定理指出,如果我们知道条件概率 ( P(X | H)) ,那么我们可以找出P(H | X) ,前提是我们已经知道P(X)和P(H) 。
贝叶斯定理以托马斯贝叶斯命名。他首先利用条件概率提供了一种算法,该算法使用证据来计算未知参数的限制。贝叶斯定理有两种概率:
- 先验概率 [P(H)]
- 后验概率 [P(H/X)]
在哪里,
- X – X 是一个数据元组。
- H - H 是一些假设。
1. 先验概率
先验概率是在收集新数据之前发生事件的概率。它是基于在执行检查之前对事件的现有知识对结果概率的最佳逻辑评估。
2. 后验概率
当收集到新的数据或信息时,将修改事件的先验概率,以更准确地衡量可能的结果。这个修改后的概率成为后验概率,并使用贝叶斯定理计算。因此,后验概率是在事件H发生的情况下,事件X发生的概率。
例如
假设三个袋子有标签 A、B 和 C。一个袋子里有一个红球,而另外两个没有。在袋子 B 中找到红球的先验概率是三分之一或 0.333。但是当看到袋子 C 时,结果表明袋子里没有红球,那么在袋子 A 和袋子 B 中找到红球的后验概率变为 0.5,因为每个袋子都有二分之一的机会。
公式
贝叶斯定理,可以用下面给出的等式在数学上表示:
在哪里,
- H和X是事件,并且,
- P(X)≠0
- P(H/X) – H 的条件概率。
鉴于 X 发生。
- P(X/H) – X的条件概率。
鉴于 H 发生。
- P(H) 和 P(X) – H 和 X 相互独立发生的先验概率。
这称为边际概率。
贝叶斯定理的公式推导
According to conditional probability, we know that
P(X|H) = P(X and H)/P(H)
Therefore,
P(X and H) = P(X|H) * P(H) ---------- [1]
Similarly,
P(H|X) = P(H and X)/P(X)
= P(X and H)/P(X) [Order does not matter in Joint Probability]
Therefore,
P(X and H) = P(H|X) * P(X) --------- [2]
Now from equation [1] and [2],
P(X|H) * P(H) = P(H|X) * P(X)
⇒ P(X|H) = P(H|X) * P(X)/P(H)
It means that if we know P(X|H), then we can find out P(H | X),
given the condition that P(X) and P(H) are already known to us.
现在,让我们考虑 X1、X2、X3…..Xk 是一组具有概率 P(Xi)、i = 1、2、3…..k 的事件,并且对于 P(H) > 0 的任何事件 H。
P(Xi|H) = P(Xi and H) / P(H)
= P(H|Xi)*P(Xi) / ∑[P(H|Xi)*P(Xi)
To find Reverse Probabilities : Bayes' Theorem
P(X1|H) = P(H|X1)*P(X1) / P(H)
Where
- P(X1) and P(H) are called marginal probabilities.
- P(X1) and P(H|X1) is already given.
Therefore, P(H) can be calculated as given below :
P(H) = P(H|X1)*P(X1) + P(H|X2)*P(X2) + P(H|X3)*P(X3)
(This is also known as Total Probability)
To find Reverse Probabilities : Bayes' Theorem
P(X1|H') = P(H'|X1)*P(X1) / P(H')
Now, P(H) can be calculated as
P(H') = P(H'|X1)*P(X1) + P(H'|X2)*P(X2) + P(H'|X3)*P(X3)
贝叶斯定理的应用
在现实世界中,贝叶斯定理有很多应用。下面给出了一些应用:
- 它也可以用作更复杂方法的构建块和起点,例如流行的贝叶斯网络。
- 用于 分类问题和其他与概率相关的问题。
- 贝叶斯推理,一种特殊的统计推理方法。
- 在遗传学中,贝叶斯定理可用于计算个体具有特定基因型的概率。
例子
1. SpamAssassin 作为邮件过滤器来识别用户训练系统的垃圾邮件。在电子邮件中,它会考虑被用户标记为垃圾邮件的单词中的模式。例如,它可能已经了解到“发布”一词在 30% 的电子邮件中被标记为垃圾邮件。总结 0.8% 的包含“释放”一词的非垃圾邮件和 40% 的用户收到的所有电子邮件是垃圾邮件。如果邮件中出现“释放”一词,请找出邮件是垃圾邮件的概率。
Solution :
Given,
P(Release | Spam) = 0.30
P(Release | Non Spam) = 0.008
P(Spam) = 0.40
=> P(Non Spam) = 0.40
P(Spam | Release) = ?
Now, using Bayes’ Theorem:
P(Spam | Release) = P(Release | Spam) * P(Spam) / P(Release)
= 0.30 * 0.40 / (0.40 * 0.30 + 0.30 * 0.008)
= 0.980
Hence, the required probability is 0.980.
2. Bag1 包含 4 个白球和 8 个黑球,Bag2 包含 5 个白球和 3 个黑球。从其中一个袋子中随机抽出一个球,抽出的球是黑色的。求从 Bag1 中抽出球的概率。
Solution:
Given,
Let E1, E2 and A be the three events where,
E1 = Event of selecting Bag1
E2 = Event of selecting Bag2
A = Event of drawing black ball
Now,
P(E1) = P(E2) = 1/2
P(drawing a black ball from Bag1) = P(A|E1) = 8/12 = 2/3
P(drawing a black ball from Bag2) = P(A|E2) = 3/8
By using Bayes' Theorem, the probability of drawing a black ball from Bag1,
P(E1|A) = P(A|E1) * P(E1) / P(A|E1) * P(E1) + P(A|E2) * P(E2)
[P(A|E1) * P(E1) + P(A|E2) * P(E2) = Total Probability]
= (2/3 * 1/2) / (2/3 * 1/2 + 3/8 * 1/2)
= 16/25
Hence, the probability that the ball is drawn from Bag1 is 16/25