贝叶斯定理太有用了,不管是在投资领域,还是机器学习,或是日常生活中几乎都在用到它。 B1 b4 w" G$ z |% q
例如,生命科学家用贝叶斯定理研究基因是如何被控制的;教育学家意识到,学生的学习过程其实就是贝叶斯法则的运用;基金经理用贝叶斯法则找到投资策略;谷歌用贝叶斯定理改进搜索功能,帮助用户过滤垃圾邮件;无人驾驶汽车接收车顶传感器收集到的路况和交通数据,运用贝叶斯定理更新从地图上获得的信息;人工智能、机器翻译中大量用到贝叶斯定理...
, t# a5 B2 A0 f& F
% R% k4 A# W) v$ X$ X我将从以下4个角度来科普贝叶斯定理及其背后的思维:
9 H; O0 I A4 s% ?( M) C" t1.贝叶斯定理有什么用?" t+ E) v' b/ `2 C8 w, q
2.什么是贝叶斯定理?
7 H' _( \8 g" b+ l* w3.贝叶斯定理的应用案例
, ~$ O. _% Y; |4.生活中的贝叶斯思维
- \9 J8 s, V8 W3 H2 Q; P7 v0 D4 ]- W+ q. o4 {0 d5 f1 \
1.贝叶斯定理有什么用? 英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。而这篇论文是在他死后才由他的一位朋友发表出来的。0 Y) P2 _5 V" r6 k
(ps:贝叶斯定理其实就是下面图片中的概率公式,这里先不讲这个公式,而是重点关注它的使用价值,因为只有理解了它的应用意义,你才会更有兴趣去学习它。)* h- Y+ k4 A. x7 X) Q5 F# Y8 ^9 u( J
$ _3 O( n6 R4 u0 V4 ?; p1 P' U
在这篇论文中,他为了解决一个“逆概率”问题,而提出了贝叶斯定理。2 g# j) b/ X! ^ y7 s; }
在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”。什么是正向概率呢?举个例子,杜蕾斯举办了一个抽奖,抽奖桶里有10个球,其中2个白球,8个黑球,抽到白球就算你中奖。你伸手进去随便摸出1颗球,摸出是中奖球的概率是多大。' _8 _2 H/ i" z0 p: m$ y, Z
7 k' _; D5 R% F2 t+ X4 z: \! _5 x9 @5 N& I
根据频率概率的计算公式,你可以轻松的知道中奖的概率=中奖球数(2个白球)/球总数(2个白球+8个黑球)=2/10- R2 p, f! L2 x+ E% r
如果还不懂怎么算出来的,可以看我之前写的科普概率的回答:猴子:如何理解条件概率?
4 Y' N0 I/ ^7 S! p( N+ ?/ R2 j' s7 E/ i; X
而贝叶斯在他的文章中是为了解决一个“逆概率”的问题。比如上面的例子我们并不知道抽奖桶里有什么,而是摸出一个球,通过观察这个球的颜色,来预测这个桶里里白色球和黑色球的比例。 x( a* N! B) O& c0 Q4 q0 F. u# i
9 H- E; R& j9 G E0 a! \ [
, E$ _* D/ P# J这个预测其实就可以用贝叶斯定理来做。贝叶斯当时的论文只是对“逆概率”这个问题的求解尝试,这哥们当时并不清楚这里面这里面包含着的深刻思想。
/ S- |( M7 _; {$ u6 |% Q" g9 A, f4 c
然而后来,贝叶斯定理席卷了概率论,并将应用延伸到各个领域。可以说,所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。
5 v/ K, u, w8 l7 A+ l: d0 e7 }9 F+ O' T5 f( n! f O
为什么贝叶斯定理在现实生活中这么有用呢?9 s2 P: b$ r( b1 ^
这是因为现实生活中的问题,大部分都是像上面的“逆概率”问题。因为生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就只能在信息有限的情况下,尽可能做出一个好的预测。
0 D) ~- @6 d+ ?& |5 ]比如天气预报说,明天降雨的概率是30%,这是什么意思呢?% n! N! k# t9 {4 a6 F' L
我们无法像计算频率概率那样,重复地把明天过上100次,然后计算出大约有30次会下雨(下雨的天数/总天数)0 C- t1 {8 ?& K" {- `( D8 @+ p
而是只能利用有限的信息(过去天气的测量数据),用贝叶斯定理来预测出明天下雨的概率是多少。
, O P n# T6 l) x) U1 S3 |0 N3 {
) t, v) D' w7 }) p! i; L同样的,在现实世界中,我们每个人都需要预测。想要深入分析未来、思考是否买股票、政策给自己带来哪些机遇、提出新产品构想,或者只是计划一周的饭菜。, C7 @% I3 ?+ Z, \" O
9 o, {9 q; T2 [9 ]* y- D: Y
贝叶斯定理就是为了解决这些问题而诞生的,它可以根据过去的数据来预测出未来事情发生概率。% l" f1 K7 k; {+ [7 l
; W2 a2 c/ h5 l2 v$ R贝叶斯定理的思考方式为我们提供了有效的方法来帮助我们做决策,以便更好地预测未来的商业、金融、以及日常生活。3 w+ A( ]) t0 Q8 t" D! w8 l
6 v+ K' B9 a1 B# q
总结下第1部分:贝叶斯定理有什么用?
" `* }7 w* j1 j% O, o/ z在有限的信息下,能够帮助我们预测出概率。
8 g0 P' G1 U# \& T所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。例如垃圾邮件过滤,中文分词,艾滋病检查,肝癌检查等。
- J: M: |: R7 i% C7 k7 _6 f( R# L: b: d) i6 J5 B
2.什么是贝叶斯定理? 贝叶斯定理长这样:# A8 s2 H1 @* r$ |% D6 j7 J. t
; }9 J0 E% J9 ?) K7 g
& U3 P& X; z$ x5 \9 l+ ~到这来,你可能会说:猴子,说人话,我一看到公式就头大啊。
! Z7 G' j. p7 z9 {4 g其实,我和你一样,不喜欢公式。我们还是从一个例子开始聊起。2 a+ p3 a3 P4 Q+ `- n L
2 B. V, J3 v; ]我的朋友小鹿说,他的女神每次看到他的时候都冲他笑,他现在想知道女神是不是喜欢他呢?
0 \& z6 v0 X0 D# T/ v谁让我学过统计概率知识呢,下面我们一起用贝叶斯帮小鹿预测下女神喜欢他的概率有多大,这样小鹿就可以根据概率的大小来决定是否要表白女神。* ^+ G5 A% e+ \5 g% n: ]0 ~
首先,我分析了给定的已知信息和未知信息:
6 e% Y7 @3 a+ O% N% @; }1)要求解的问题:女神喜欢你,记为A事件
+ `* ]5 A, B1 i' e/ e0 Y* M2)已知条件:女神经常冲你笑,记为B事件
5 l+ m2 {0 L2 M) J3 b. f
8 E" S& I0 t# B' J( o所以,P(A|B)表示女神经常冲你笑这个事件(B)发生后,女神喜欢你(A)的概率。
3 u' T% b# _$ _0 K0 Q3 C0 r/ ~* k9 _) ^! ], \0 n+ l7 G4 u2 B# V
0 f5 I' z' q( k% q* V0 R从公式来看,我们需要知道这么3个事情:
3 \2 D# L9 n$ b \1)先验概率; j& V) T& a/ A- Q4 H
我们把P(A)称为"先验概率"(Prior probability),也就是在不知道B事件的前提下,我们对A事件概率的一个主观判断。
( M$ q- e2 ?, @4 T+ v7 ]' p对应这个例子里就是在不知道女神经常对你笑的前提下,来主观判断出女神喜欢一个人的概率。这里我们假设是50%,也就是不喜欢你,可能不喜欢你的概率都是一半。$ x6 o) j' D; q0 r' E7 [
/ p; E& _: q H/ S8 i& T7 V# j. K2)可能性函数
9 @& ^( h6 c. N; b: E& AP(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,也就是新信息B带来的调整,作用是将先验概率(之前的主观判断)调整到更接近真实概率。% ^3 A% J; w7 Q. N9 Z
3 H* P1 i$ a! @. \可能性函数你可以理解为新信息过来后,对先验概率的一个调整。比如我们刚开始看到“人工智能”这个信息,你有自己的理解(先验概率-主观判断),但是当你学习了一些数据分析,或者看了些这方面的书后(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(可能性函数-调整因子),最后重新理解了“人工智能”这个信息(后验概率)
! H1 v1 `! {3 T6 |7 t, s7 c
7 O$ K- r( g8 `如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大;
9 K! E9 W/ E( i: W, e4 C如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;
6 j8 l& {/ O3 ]/ I8 V# p! r9 P. g; ]如果&#34;可能性函数&#34;<1,意味着&#34;先验概率&#34;被削弱,事件A的可能性变小。 E* i( ~* R$ d. [/ P, M
( z% K: |7 p# ~: V0 w5 K! _5 U4 c还是刚才的例子,根据女神经常冲你笑这个新的信息,我调查走访了女神的闺蜜,最后发现女神平日比较高冷,很少对人笑,也就是对你有好感的可能性比较大(可能性函数>1)。所以我估计出&#34;可能性函数&#34;P(B|A)/P(B)=1.5(具体如何估计,省去1万字,后面会有更详细科学的例子)
, F' I7 N, p, v$ |! \4 J- P1 w9 b6 l, v& E( A" i
3)后验概率# h) V' B( Q) ]0 x
P(A|B)称为&#34;后验概率&#34;(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。这个例子里就是在女神冲你笑后,对女神喜欢你的概率重新预测。
/ H2 k! Y7 Z. n. b4 _- K/ A带入贝叶斯公式计算出P(A|B)=P(A)* P(B|A)/P(B)=50% *1.5=75%+ I: Q; u1 ?% \9 ^1 G: u
( i4 D: g+ d! {1 N% c
因此,女神经常冲你笑,喜欢上你的概率是75%。这说明,女神经常冲你笑这个新信息的推断能力很强,将50%的&#34;先验概率&#34;一下子提高到了75%的&#34;后验概率&#34;。
; `4 v M! j( q2 R/ A' y1 C1 ]; D( A5 A- W4 i0 d$ L, D; x* e
- g; L p9 e8 T+ i0 Z5 W在得到概率值后,小鹿自信满满的发了下面的表白微博:. p6 Z; Q) d0 M& `2 V9 P7 d" [
' Q# V" H7 C1 d7 Z
: f# J1 \" m% k稍后,果然收到了女神的回复。预测成功。: Q/ g, {4 N- }( J, O F
$ k9 c6 @; X+ t' v9 s$ J8 C. R! R4 n9 X8 @ e/ |
现在我们再看一遍贝叶斯公式,你现在就能明白这个公式背后的关键思想了:% F# D, e. c: T2 E6 C
我们先根据以往的经验预估一个&#34;先验概率&#34;P(A),然后加入新的信息(实验结果B),这样有了新的信息后,我们对事件A的预测就更加准确。- {+ I& s5 Z$ U! E5 H+ `
( d8 u% H8 I6 R
& C, z; W& `5 F* J0 W3 t& T
因此,贝叶斯定理可以理解成下面的式子:, e, j8 C% h b# y0 Z9 P
后验概率(新信息出现后的A概率) = 先验概率(A概率) x 可能性函数(新信息带来的调整)4 T3 z1 f! x' O3 z4 m# {& F$ ~
贝叶斯的底层思想就是:5 f$ v5 V* U( G* D8 Z! x
如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率(古典概率)。, c. R$ I3 i9 X# [
可是生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。也就是,在主观判断的基础上,你可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。) L7 z( F' n% c) f
如果用图形表示就是这样的:$ C& z0 K1 G5 f0 u) |
' D* |4 b; P k& f2 f0 x4 E( W% v9 ~
其实阿尔法狗也是这么战胜人类的,简单来说,阿尔法狗会在下每一步棋的时候,都可以计算自己赢棋的最大概率,就是说在每走一步之后,他都可以完全客观冷静的更新自己的概率值,完全不受其他环境影响。2 n: a8 C& l, Q# d" ^1 ?
! O q* _1 {5 g k7 m o/ D T3.贝叶斯定理的应用案例 前面我们介绍了贝叶斯定理公式,及其背后的思想。现在我们来举个应用案例,你会更加熟悉这个牛瓣的工具。
' E! r. P( n& y6 D5 p% ]9 I为了后面的案例计算,我们需要先补充下面这个知识。
1 Z$ l- R% E# e Z1.全概率公式. m9 j. Q3 L7 F0 B! T7 V
这个公式的作用是计算贝叶斯定理中的P(B)。' X! Y J; j2 P0 h% o3 x
假定样本空间S,由两个事件A与A&#39;组成的和。例如下图中,红色部分是事件A,绿色部分是事件A&#39;,它们共同构成了样本空间S。
+ O0 n: n' A. I% w: W$ s
7 x& @$ ] c: N5 i" v' k) e1 }: x f: J6 |; c* _: f/ _
这时候来了个事件B,如下图:( O% T0 \( O+ s0 J; Z
* w+ `# \4 C3 U. h
% S+ z/ }8 j$ [4 y6 d5 _全概率公式:" m5 a' \* K w1 h3 W$ _) l
5 o+ ]3 N$ E9 X! d' x
1 i% A2 L3 m N) Q0 J1 V3 w$ n- }+ C它的含义是,如果A和A&#39;构成一个问题的全部(全部的样本空间),那么事件B的概率,就等于A和A&#39;的概率分别乘以B对这两个事件的条件概率之和。
% p6 L" k" H+ B1 b
/ y' ~, w- M0 A0 l' b7 g y看到这么复杂的公式,记不住没关系,因为我也记不住,下面用的时候翻到这里来看下就可以了。1 A$ d, D4 c2 N; Q% {$ U1 Q
, ?6 w+ B4 i* r4 `# D! Z, \0 P案例1:贝叶斯定理在做判断上的应用
7 t, y( ~# r W% o有两个一模一样的碗,1号碗里有30个巧克力和10个水果糖,2号碗里有20个巧克力和20个水果糖。
% e2 ~3 |0 `0 s) j& V
" Q$ \7 e7 c' {' q, m- O7 ?0 N! {. I, N8 K5 ^
然后把碗盖住。随机选择一个碗,从里面摸出一个巧克力。
' c; e1 y# m9 [( x; }问题:这颗巧克力来自1号碗的概率是多少?
- K' F3 ^2 j' `4 ?% S9 a# s- V# V$ Z0 u( f' ]) j* l
好了,下面我就用套路来解决这个问题,到最后我会给出这个套路。
$ w- o+ f4 q* h
1 J$ _4 n; J0 Z* z- J' b4 R) W第1步,分解问题
$ w1 F/ o6 ]2 U$ P" J1)要求解的问题:取出的巧克力,来自1号碗的概率是多少?, |3 Y2 G7 G( ^
来自1号碗记为事件A1,来自2号碗记为事件A2
6 c6 {$ g5 Y- ~3 w2 f9 c取出的是巧克力,记为事件B,* t: X' c6 j4 g, o
那么要求的问题就是P(A1|B),也就是取出的是巧克力(B),来自1号碗(A1)的概率
% x) o) Q3 d/ V* p+ F% S' w+ o2)已知信息:3 N/ v$ \# ~. x% ?+ Z6 z! g! c
1号碗里有30个巧克力和10个水果糖
4 g. ?1 M2 {% O8 x4 W$ K2 c. o H2号碗里有20个巧克力和20个水果糖
3 U7 l0 M8 H" A$ c( a: U, }取出的是巧克力
' j4 z* ^2 |0 _* `3 c7 \& w( E1 m' ~* [# m# U
第2步,应用贝叶斯定理" Y5 U9 ]) ~. ` X3 g0 {
0 }- C6 `* t( X7 [7 L$ P. y
4 N( u K8 N: |% d5 T6 X* n1)求先验概率4 Q' p' \$ p7 }. S6 E8 Q
由于两个碗是一样的,所以在得到新信息(取出是巧克力之前),这两个碗被选中的概率相同,因此P(A1)=P(A2)=0.5,(其中A1表示来自1号碗,A2表示来自2号碗)1 V9 c& g1 I4 u; j+ l
这个概率就是&#34;先验概率&#34;,即没有做实验之前,来自一号碗、二号碗的概率都是0.5。8 o) Y# D4 P; q0 x% D' C
0 S U* l. @% `: [
2)求可能性函数5 W1 \: v# a+ p
P(B|A1)/P(B)
y9 `% Y- V K* S6 n- b其中,P(B|A1)表示从1号碗中(A1)取出是巧克力(B)的概率。
; D6 I% z) L. u% h$ ~( x6 Q x因为1号碗里有30个巧克力和10个水果糖,所以P(B|A1)=巧克力数(30)/(糖果总数30+10)=75%% D: U$ f" p, I3 |
现在贝叶斯公式里只剩P(B)了,只有求出P(B)就可以得到答案。7 J( }! c( b* F B A2 ^$ h; ?
根据全概率公式,可以用下图求得P(B):& l+ W5 m3 X! j* C8 G9 |. \% l Q7 n
/ v6 p5 @9 {6 r
2 R5 i% U* i& g# C2 t图中P(B|A1)是1号碗中巧克力的概率,我们根据前面的已知条件,很容易求出。
6 O1 v- f7 m! D# L同样的,P(B|A2)是2号碗中巧克力的概率,也很容易求出(图中已给出)。4 G: [, n( C: C3 `9 e* \
而P(A1)=P(A2)=0.5 i3 |- C X) R, p' t# @
将这些数值带入公式中就是小学生也可以算出来的事情了。最后P(B)=62.5%
" v5 R# e/ ?& R$ N/ X
! L; @7 p; F; g9 T4 f: ~$ [所以,可能性函数P(B|A1)/P(B)=75%/62.5%=1.2。5 j+ r7 o0 H' y# A5 _/ a
可能性函数>1.表示新信息B对事情A1的可能性增强了。
4 ]( }8 \8 n T) a( R2 e+ I, j% j _
' P: F: O7 ~& j# o3)带入贝叶斯公式求后验概率
1 q; w% i5 I0 [( F) z将上述计算结果,带入贝叶斯定理,即可算出P(A1|B)=60%
: O- b3 ^3 T& Z7 n+ R" @4 b+ A
+ d1 ~: T7 H k% d c. w6 ?) O& q Y5 U7 \1 w! w/ e
这个例子中我们需要关注的是约束条件:抓出的是巧克力。如果没有这个约束条件在,来自一号碗这件事的概率就是50%了,因为巧克力的分布不均把概率从50%提升到60%。
1 T: R2 z8 S* v$ b4 _: Y4 o
9 Q/ O8 w8 N+ g& ]1 l现在,我总结下刚才的贝叶斯定理应用的套路,你就更清楚了,会发现像小学生做应用题一样简单:/ F& v9 c/ p: K0 `
第1步. 分解问题) A j1 d3 p5 M J# K
简单来说就像做应用题的感觉,先列出解决这个问题所需要的一些条件,然后记清楚哪些是已知的,哪些是未知的。
# t C5 D4 @( B! r2 p6 v$ K8 S( @1)要求解的问题是什么?, r1 D1 K& q. I- y( e; A2 f
识别出哪个是贝叶斯中的事件A(一般是想要知道的问题),哪个是事件B(一般是新的信息,或者实验结果)' N$ R- e, D; M/ |: H
2)已知条件是什么?9 d/ T1 ^5 p2 _$ M' d& t8 J4 h |3 s( a
4 `! L: [: Q6 {& R" Y$ Q8 ]
第2步.应用贝叶斯定理- c/ J/ ~& W, c" y& @6 D+ o
第3步,求贝叶斯公式中的2个指标
5 ]- N+ y$ N) A% V8 d4 y1)求先验概率: E* Q: K( Z G7 P, |3 `
2)求可能性函数2 I3 F) P( S- |! }
3)带入贝叶斯公式求后验概率+ c9 K. Q4 J: L0 Y
; Y9 q2 ?- d1 k. u) C7 q6 I% d+ Y9 L- p2 r; W" z3 [
) c0 n* a. g7 L8 j7 |
案例2:贝叶斯定理在医疗行业的应用
' R ^/ d# K W7 H0 P) {每一个医学检测,都存在假阳性率和假阴性率。假阳性,就是没病,但是检测结果显示有病。假阴性正好相反,有病但是检测结果正常。/ X9 d( C( H; H# |8 J
即使检测准确率是99%,如果医生完全依赖检测结果,也会误诊。也就是说假阳性的情况,根据检测结果显示有病,但是你实际并没有得病。
4 v# h& }3 k) v; p; i举个更具体的例子,因为艾滋病潜伏期很长,所以即便感染了也可能在很长的一段时间,身体没有任何感觉,所以艾滋病检测的假阳性会导致被测人非常大的心理压力。
2 b1 q5 B3 ]+ p
" Y5 _8 N& `3 T/ C ^( X# U你可能会觉得,检测准确率都99%了,误测几乎可以忽略不计了吧?所以你觉得这人肯定没有患艾滋病了对不对?
9 Z& l6 [* O- D让我们用贝叶斯定理算一下,就会发现你的直觉是错误的。; q7 @! m' C% k! ^$ C' w
9 ~$ Z( T6 B3 N2 Y" G% a! s
假设某种疾病的发病率是0.001,即1000人中会有1个人得病。现在有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。- H: ^4 T) l6 Y$ z: K! p
现在有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?4 p+ c: s& Z- [+ R9 ~# K
& @0 N5 H( U8 P$ l% t
好了,我知道你面对这一大推信息又头大了,我也是。但是我们不是有贝叶斯模板套路嘛,下面开始。8 C- d& ~5 b- Y+ w1 d) `9 ^
3 _; y5 f# Y3 ~6 }第1步,分解问题
) W. M$ ?+ l, J: ~1)要求解的问题:病人的检验结果为阳性,他确实得病的概率有多大?$ d9 d' F7 {: ]- X5 e1 T% p% v- C% X
病人的检验结果为阳性(新的信息)记为事件B,他得病记为事件A,2 D& s# T4 `; C" k
那么要求的问题就是P(A|B),也就是病人的检验结果为阳性(B),他确实得病的概率(A)& y0 u n1 M0 U1 S% B
2)已知信息
) U `$ a, B! C* t% t, c0 q这种疾病的发病率是0.001,即P(A)=0.001
" z% b3 W8 u; k试剂可以检验患者是否得病,准确率是0.99,也就是在患者确实得病的情况下(A),它有99%的可能呈现阳性(B),所以P(B|A)=0.999 ?( @7 a% L& V) |! J
试剂的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。得病我们记为事件A,那么没有得病就是事件A的反面,记为A&#39;,所以这句话就可以表示为P(B|A&#39;)=5%( d# v7 _; c% \) x1 d
* T, l6 Z4 f8 d) h; v' w: Z5 L1 o2.应用贝叶斯定理
0 k) ?) Z' F; L1 c: G$ G' O* H
' ]$ M1 l% X: h$ @; i8 C- t, k( z1 m2 ^
1)求先验概率+ E4 g# ?3 a( _. j
疾病的发病率是0.001,即P(A)=0.001' w1 L& Z5 F$ H: I' ?" m% r
2)求可能性函数
9 p0 u: l3 h! B. t, t# NP(B|A)/P(B)1 K2 i+ Q. O) s6 }
其中,P(B|A)表示在患者确实得病的情况下(A),试剂呈现阳性的概率,从前面的已知条件中我们已经知道P(B|A)=0.99
3 _4 f, E" B1 C$ @现在只有求出P(B)就可以得到答案。根据全概率公式,可以用下图求得P(B)=0.05094" Y9 B |1 Z( K1 ^+ \
$ \' n/ Q8 \- e
4 o+ J6 v# u' O$ P' v( z1 u4 o. x! N所以可能性函数P(B|A)/P(B)=0.99/0.05094=19.4346
: C/ O& {+ K$ P- \- q3 [# `3)带入贝叶斯公式求后验概率
7 c4 `& ]$ Y+ r: u2 N, I我们得到了一个惊人的结果,P(A|B)等于1.94%。
0 R2 q7 D7 p1 _ W% _4 ~也就是说,筛查的准确率都到了99%了,通过体检结果有病(阳性)确实得病的概率也只有1.94%6 \: m3 z! e1 U) M* `! f
* s6 I. c. @# R/ D/ ]
0 ^9 K" S" U8 h7 C' h2 a! _你可能会说,再也不相信那些吹的天花乱坠的技术了,说好了筛查准确率那么高,结果筛查的结果对于确诊疾病一点用都没有,这还要医学技术干什么?6 U; |! V& @/ Q: ^2 J
没错,这就是贝叶斯分析告诉我们的。我们拿艾滋病来说,由于发艾滋病实在是小概率事件,所以当我们对一大群人做艾滋病筛查时,虽说准确率有99%,但仍然会有相当一部分人因为误测而被诊断为艾滋病,这一部分人在人群中的数目甚至比真正艾滋病患者的数目还要高。9 Y- ~* a, P- k1 l! C
, }3 k" T- v! W) M H. `* A
你肯定要问了,那该怎样纠正测量带来这么高的误诊呢?4 E" Z1 j G+ M t) ?! f% l
造成这么不靠谱的误诊的原因,是无差别地给一大群人做筛查,而不论测量准确率有多高,因为正常人的数目远大于实际的患者,所以误测造成的干扰就非常大了。
+ L# l8 m( z, P) d, g) p9 p( l6 ^( `+ e
根据贝叶斯定理,我们知道提高先验概率,可以有效的提高后验概率。
5 l; O8 U5 m3 z所以解决的办法倒也很简单,就是先锁定可疑的人群,比如10000人中检查出现问题的那10个人,再独立重复检测一次。因为正常人连续两次体检都出现误测的概率极低,这时筛选出真正患者的准确率就很高了,这也是为什么许多疾病的检测,往往还要送交独立机构多次检查的原因。7 N4 E ^' B7 x7 l) |
这也是为什么艾滋病检测第一次呈阳性的人,还需要做第二次检测,第二次依然是阳性的还需要送交国家实验室做第三次检测。 v; b r. F& `, S/ z* u5 O8 d/ h2 S
在《医学的真相》这本书里举了个例子,假设检测艾滋病毒,对于每一个呈阳性的检测结果,只有50%的概率能证明这位患者确实感染了病毒。但是如果医生具备先验知识,先筛选出一些高风险的病人,然后再让这些病人进行艾滋病检查,检查的准确率就能提升到95%。5 h4 f, W2 ^% x' E7 J$ e) K
3 J4 U) P P$ L, ?- r$ F( M
案例4:贝叶斯垃圾邮件过滤器
) P8 ~% u! m! L3 r* F3 P垃圾邮件是一种令人头痛的问题,困扰着所有的互联网用户。全球垃圾邮件的高峰出现在2006年,那时候所有邮件中90%都是垃圾,2015年6月份全球垃圾邮件的比例数字首次降低到50%以下。
8 ]& }8 u) n( G1 M) q最初的垃圾邮件过滤是靠静态关键词加一些判断条件来过滤,效果不好,漏网之鱼多,冤枉的也不少。; l1 O# ?2 {: K
2002年,Paul Graham提出使用&#34;贝叶斯推断&#34;过滤垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可以过滤掉995封,且没有一个误判。- V3 f7 y. L- u# V
) Y* I0 s( j% r6 v# |+ {& J3 _因为典型的垃圾邮件词汇在垃圾邮件中会以更高的频率出现,所以在做贝叶斯公式计算时,肯定会被识别出来。之后用最高频的15个垃圾词汇做联合概率计算,联合概率的结果超过90%将说明它是垃圾邮件。* v$ O" u- w4 F
$ B+ c2 z5 J' Q% o R# B; V
用贝叶斯过滤器可以识别很多改写过的垃圾邮件,而且错判率非常低。甚至不要求对初始值有多么精确,精度会在随后计算中逐渐逼近真实情况。
I1 a0 I8 G( G(ps:如果留言想详细了解这个知识的很多,我后面会专门写文章来回答大家)" t* F, E/ T. ]7 z( v/ i, D2 _
! P. F4 U) {: E6 f6 p7 N6 f4.生活中的贝叶斯思维 贝叶斯定理与人脑的工作机制很像,这也是为什么它能成为机器学习的基础。/ Z0 F9 F1 Q; s3 Y4 J7 |) C4 k# W
如果你仔细观察小孩学习新东西的这个能力,会发现,很多东西根本就是看一遍就会。比如我3岁的外甥,看了我做俯卧撑的动作,也做了一次这个动作,虽然动作不标准,但也是有模有样。
: _! a S( R; s. h$ Q# f. j同样的,我告诉他一个新单词,他一开始并不知道这个词是什么意思,但是他可以根据当时的情景,先来个猜测(先验概率/主观判断)。一有机会,他就会在不同的场合说出这个词,然后观察你的反应。如果我告诉他用对了,他就会进一步记住这个词的意思,如果我告诉他用错了,他就会进行相应调整。(可能性函数/调整因子)。经过这样反复的猜测、试探、调整主观判断,就是贝叶斯定理思维的过程。
7 n) F7 `8 n1 u9 G( A3 B+ B- a
/ b; {. a1 F9 i) J6 t6 Y# \! O同样的,我们成人也在用贝叶斯思维来做出决策。比如,你和女神在聊天的时候,如果对方说出“虽然”两个字,你大概就会猜测,对方后面九成的可能性会说出“但是”。我们的大脑看起来就好像是天生在用贝叶斯定理,即根据生活的经历有了主观判断(先验概率),然后根据搜集新的信息来修正(可能性函),最后做出高概率的预测(后验概率)。
1 H* `2 N6 ? o% F* D
8 A/ y1 ~2 N% O+ ^1 }其实这个过程,就是下图的大脑决策过程:" Z" Q$ w2 Q% F% d) ?* S2 W `
% H' o6 K* i* Z' p! d3 Q5 k+ H7 X4 j8 `$ q/ {* c
所以,在生活中涉及到预测的事情,用贝叶斯的思维可以提高预测的概率。你可以分3个步骤来预测:; ^- v+ z4 C/ a& e
1.分解问题* o% ~5 I- [2 D3 Q' G
简单来说就像小学生做应用题的感觉,先列出要解决的问题是什么?已知条件有哪些?+ ~: ]) R( |$ Y, L6 ^* K# q/ s1 [7 @/ j x
2. 给出主观判断
( `6 X% S% j* p3 o. ]不是瞎猜,而是根据自己的经历和学识来给出一个主观判断。
* r2 [; l( E+ Z- M) l3.搜集新的信息,优化主观判断9 O9 I v! B a, X
持续关于你要解决问题相关信息的最新动态,然后用获取到的新信息来不断调整第2步的主观判断。如果新信息符合这个主观判断,你就提高主观判断的可信度,如果不符合,你就降低主观判断的可信度。
$ w1 [2 ]4 ^& e! \) s% Q2 o) q7 L$ y+ r9 {
比如我们刚开始看到“人工智能是否造成人类失业”这个信息,你有自己的理解(主观判断),但是当你学习了一些数据分析,或者看了些这方面的最新研究进展(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(调整因子),最后重新理解了“人工智能”这个信息(后验概率)。这也就是胡适说的“大胆假设,小心求证”。
) A6 X: ^! p9 o1 g* b" i$ A4 d0 v4 H; R4 L. P. `
概率的基础知识补充:" Q+ g" X. e8 y3 t. o& `
; A0 R$ ~& U' @1 g$ ?参考资料:
0 U) c5 R" b6 Z( ~YouTube英文视频《Thomas Bayes: Probability for Success》, L& I" g( p5 ]
YouTube英文视频《Everything You Ever Wanted to Know About Bayes&#39; Theorem But Were Afraid To Ask.》! U2 c* j3 i m$ a/ g
贝叶斯垃圾邮件过滤器:http://www.paulgraham.com/spam.html
) \: n( c/ ~0 }贝叶斯垃圾邮件过滤Wiki:https://en.wikipedia.org/wiki/Naive_Bayes_spam_filtering( `8 T6 A4 V: S% c1 \2 S+ m
贝叶斯推断及其互联网应用(一)
6 W1 t" \7 t7 c3 ]3 c《联邦党人文集》背后的统计学幽灵 |