贝叶斯学派的思想是用数据来更新特定假设的概率,例如根据检测结果来更新一只电芯是否有缺陷的判断。
假设一只电芯刚刚通过了缺陷检测设备。如果它被判为阳性(疑似有缺陷),我们最想知道的是“已知这个检测结果,它真的有缺陷的概率是多少?”(毕竟检测设备并不是100%准确的。)有了贝叶斯公式,我们就可以准确地计算出上述事件的概率:
$$P(\text{有缺陷}|阳性) = \dfrac{P(阳性|\text{有缺陷})P(\text{有缺陷})}{P(阳性)}$$从上述公式我们可以看出,已知检测结果为阳性时“有缺陷”的后验概率,还依赖于“有缺陷”的先验概率\( P(\text{有缺陷}) \)。我们可以把这个先验概率理解为这一整批电芯中真实存在缺陷的比例(即不良率)。拖拽下方的柱状图来调整这个先验概率。
另一方面,后验概率还依赖于检测的准确程度:一只良品被判为阴性的概率是多少?一只有缺陷的电芯被判为阳性的概率是多少?你可以在下方确定这两者的概率。
最后,我们还需要知道这个检测给出阳性结果的总概率。你可以点击下方的按钮来生成一些样本,模拟检测过程。
| 阴性 | 阳性 |
|---|---|
以上就是计算后验概率所需要的所有信息。下方的表格给出了利用贝叶斯公式算出的其他后验概率。
| 阴性 | 阳性 | |
|---|---|---|
| 良品 | ||
| 有缺陷 |
在统计学中, 似然函数 的定义是:
$$L(\theta | x) = P(x | \theta)$$似然函数的概念在频率学派和贝叶斯学派中都有重要的作用。
选择样本大小\(n\)然后生成样本。
拖动紫色滑块(改变\(\theta\)的值)并观察似然函数。
贝叶斯统计的核心思想是利用观察到的数据来更新先验信息。考虑一条产线,每只电芯合格的概率(良率)为\(p\)。下面的紫色滑块可以调整\(p\)的大小(假设在现实中我们并不知道\(p\))。
粉色的滑块可以调整\(p\)的先验分布。这里我们假定\(p\)的先验分布是Beta(\(\alpha,\beta\)),在图中粉色曲线代表了先验概率的密度分布函数。
当我们不断抽检电芯时,我们不断更新关于\(p\)的后验分布。这个后验分布就是我们对\(p\)的最好估计,同时这也是我们对下一只电芯抽检结果的先验信息。