贝叶斯定理厉害在哪里?

[复制链接]
查看8101 | 回复0 | 2021-11-1 11:58:39 | 显示全部楼层 |阅读模式
贝叶斯定理太有用了,不管是在投资领域,还是机器学习,或是日常生活中几乎都在用到它。0 [' L! J* T: z  ^. I  M
例如,生命科学家用贝叶斯定理研究基因是如何被控制的;教育学家意识到,学生的学习过程其实就是贝叶斯法则的运用;基金经理用贝叶斯法则找到投资策略;谷歌用贝叶斯定理改进搜索功能,帮助用户过滤垃圾邮件;无人驾驶汽车接收车顶传感器收集到的路况和交通数据,运用贝叶斯定理更新从地图上获得的信息;人工智能、机器翻译中大量用到贝叶斯定理...6 V6 d0 ^( S0 S) I
# i& Z- J. H) C3 W/ y
我将从以下4个角度来科普贝叶斯定理及其背后的思维:0 y# l+ {: D3 G$ \6 P) x
1.贝叶斯定理有什么用?5 o1 i9 a6 f+ ?$ n6 q
2.什么是贝叶斯定理?
6 u' }( `0 I/ r+ M3.贝叶斯定理的应用案例
7 @) X6 P. H- _6 A' l. c" w+ p4 e4.生活中的贝叶斯思维+ h) e8 g* j9 H

& S2 e! n- T. K) [
1.贝叶斯定理有什么用?
英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。而这篇论文是在他死后才由他的一位朋友发表出来的。
1 L' t2 ^' l" M4 P# n' A. ?(ps:贝叶斯定理其实就是下面图片中的概率公式,这里先不讲这个公式,而是重点关注它的使用价值,因为只有理解了它的应用意义,你才会更有兴趣去学习它。)( K! ~; N& j3 m8 X1 h! ^
  J( J  n8 _! d( s( d

% b" G- W. r8 F5 F1 V4 w6 Z在这篇论文中,他为了解决一个“逆概率”问题,而提出了贝叶斯定理。6 l% ]; `1 [3 c9 z
在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”。什么是正向概率呢?举个例子,杜蕾斯举办了一个抽奖,抽奖桶里有10个球,其中2个白球,8个黑球,抽到白球就算你中奖。你伸手进去随便摸出1颗球,摸出是中奖球的概率是多大。
0 i! @; h# M& [% y
, y; I3 a; g' c% W4 J0 e. B+ P  ^6 w* a9 S$ G; {0 x7 s; D
根据频率概率的计算公式,你可以轻松的知道中奖的概率=中奖球数(2个白球)/球总数(2个白球+8个黑球)=2/10
" _2 c9 I: H% t3 X$ e. U如果还不懂怎么算出来的,可以看我之前写的科普概率的回答:猴子:如何理解条件概率?
) S0 _" O' E3 W3 f! H( q. Z  k0 y) M4 S# O( F/ N
而贝叶斯在他的文章中是为了解决一个“逆概率”的问题。比如上面的例子我们并不知道抽奖桶里有什么,而是摸出一个球,通过观察这个球的颜色,来预测这个桶里里白色球和黑色球的比例。% y/ c& t+ n+ V6 w5 b+ ~

( y* m  d4 H- [" v! ]3 a% R. g  [) m; h% h" r1 ~3 z
这个预测其实就可以用贝叶斯定理来做。贝叶斯当时的论文只是对“逆概率”这个问题的求解尝试,这哥们当时并不清楚这里面这里面包含着的深刻思想。
  C! ~& A/ s$ M1 C  ~' |7 {( p: B* Z  f7 y
然而后来,贝叶斯定理席卷了概率论,并将应用延伸到各个领域。可以说,所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。
' k6 b' i3 v0 r  X& |2 B/ i
7 X% p& c- S" g; B  s9 N. W5 U为什么贝叶斯定理在现实生活中这么有用呢?
  [3 t+ \8 ?' e1 x- c2 |% E这是因为现实生活中的问题,大部分都是像上面的“逆概率”问题。因为生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就只能在信息有限的情况下,尽可能做出一个好的预测。
% F% U+ F; |% j: [$ [1 G比如天气预报说,明天降雨的概率是30%,这是什么意思呢?: f& L; r- `$ x# x
我们无法像计算频率概率那样,重复地把明天过上100次,然后计算出大约有30次会下雨(下雨的天数/总天数)
0 l  K8 }9 k' e, D. w而是只能利用有限的信息(过去天气的测量数据),用贝叶斯定理来预测出明天下雨的概率是多少。
, W3 M* \# X3 R; [$ _8 P- _, x& o8 @) z" p& ]  L! e9 x4 c8 H5 F! K
同样的,在现实世界中,我们每个人都需要预测。想要深入分析未来、思考是否买股票、政策给自己带来哪些机遇、提出新产品构想,或者只是计划一周的饭菜。
  K) B+ X3 \4 l4 w  b  p
# v4 p. q$ z5 W9 n4 X" l7 E. `贝叶斯定理就是为了解决这些问题而诞生的,它可以根据过去的数据来预测出未来事情发生概率。
2 n" Z3 r9 q8 B) c
5 [0 Y; w- I+ w- T, D1 c( ~贝叶斯定理的思考方式为我们提供了有效的方法来帮助我们做决策,以便更好地预测未来的商业、金融、以及日常生活。6 n4 h1 d% e3 z) c4 h! ?, [& W+ w3 h
- e7 x' m9 P( I! r8 z9 k4 @5 Y
总结下第1部分:贝叶斯定理有什么用?- M4 f6 F3 `& l$ i0 O
在有限的信息下,能够帮助我们预测出概率。2 l. @8 z" S7 h$ |; U
所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。例如垃圾邮件过滤,中文分词,艾滋病检查,肝癌检查等。
- ]% v- Z/ @9 m4 [5 N' W& B1 L. h1 u5 M5 b- ?
2.什么是贝叶斯定理?
贝叶斯定理长这样:3 L$ ?1 P9 ~* P0 t' q% k  e2 G: s
- i& q& e' d, g6 ]# Z/ q3 r7 e* w

, u( Z8 y6 D( [2 \% q$ v3 a到这来,你可能会说:猴子,说人话,我一看到公式就头大啊。6 }6 G# j% N$ [* R
其实,我和你一样,不喜欢公式。我们还是从一个例子开始聊起。, B9 l8 e- }/ v. p! |9 P  J

: {" C- J: ?8 O! b0 u6 j8 ]我的朋友小鹿说,他的女神每次看到他的时候都冲他笑,他现在想知道女神是不是喜欢他呢?4 o$ p3 |" a/ x1 V- u8 `+ ^( v- {6 c
谁让我学过统计概率知识呢,下面我们一起用贝叶斯帮小鹿预测下女神喜欢他的概率有多大,这样小鹿就可以根据概率的大小来决定是否要表白女神。
5 v2 q: l2 `/ p4 t3 W首先,我分析了给定的已知信息和未知信息:
0 C4 a5 Z7 p8 x& m! r1)要求解的问题:女神喜欢你,记为A事件
6 `3 l3 ^3 @/ a2)已知条件:女神经常冲你笑,记为B事件0 N8 ]' X* k7 |/ P% t

8 {) b( O& Y$ d9 _0 {6 W3 ]所以,P(A|B)表示女神经常冲你笑这个事件(B)发生后,女神喜欢你(A)的概率。+ X) `3 y9 n, W! S# ^) \! X

% l  [- F2 H+ K# q% U5 v4 w" }( g, ~. E
从公式来看,我们需要知道这么3个事情:
1 \/ E& N! |7 q7 N! W! t6 V  F& c1)先验概率
1 i' }/ @, x; Q4 Z/ a我们把P(A)称为"先验概率"(Prior probability),也就是在不知道B事件的前提下,我们对A事件概率的一个主观判断。
- h, o8 B3 G& Y7 a% U9 M对应这个例子里就是在不知道女神经常对你笑的前提下,来主观判断出女神喜欢一个人的概率。这里我们假设是50%,也就是不喜欢你,可能不喜欢你的概率都是一半。0 \% Q( q% z5 S4 l0 ?
- \% _1 c# R, o! d; m
2)可能性函数
6 h6 v8 P3 s  e2 k; \P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,也就是新信息B带来的调整,作用是将先验概率(之前的主观判断)调整到更接近真实概率。
& Q0 D6 B# N( r: @" D* y! m: g& x* a8 r" E- @+ Q% j' S
可能性函数你可以理解为新信息过来后,对先验概率的一个调整。比如我们刚开始看到“人工智能”这个信息,你有自己的理解(先验概率-主观判断),但是当你学习了一些数据分析,或者看了些这方面的书后(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(可能性函数-调整因子),最后重新理解了“人工智能”这个信息(后验概率)
2 f1 E, i) O7 W  q/ i( {$ ^1 h4 {9 |# M: p: R. b! R& H
如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大;5 T$ u- }3 h; J  @# @3 n. T
如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;
* ?6 B! W3 `, e- k6 t0 _+ N! J如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小。: N+ Z" J# I( W8 O9 `

* x& c9 r" F1 M还是刚才的例子,根据女神经常冲你笑这个新的信息,我调查走访了女神的闺蜜,最后发现女神平日比较高冷,很少对人笑,也就是对你有好感的可能性比较大(可能性函数>1)。所以我估计出"可能性函数"P(B|A)/P(B)=1.5(具体如何估计,省去1万字,后面会有更详细科学的例子)/ [, b7 l7 W, [. G% ~

$ U( e, z: d; S: C: g1 R( U* r- }9 U3)后验概率) A, O/ k1 s9 O
P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。这个例子里就是在女神冲你笑后,对女神喜欢你的概率重新预测。8 P; s  B# g3 `/ K9 n( Y9 k
带入贝叶斯公式计算出P(A|B)=P(A)* P(B|A)/P(B)=50% *1.5=75%2 C7 f: w$ I! A* b* B$ C: m/ E
( A" @3 |8 b- ^$ s0 _
因此,女神经常冲你笑,喜欢上你的概率是75%。这说明,女神经常冲你笑这个新信息的推断能力很强,将50%的"先验概率"一下子提高到了75%的"后验概率"。2 x; t2 m2 w8 f: V2 T' h- T: J7 ~
2 a) j9 G# H: \. t

& U3 t( `3 o, r% c% o$ u在得到概率值后,小鹿自信满满的发了下面的表白微博:
, }# O$ L) p( E/ a* [- J4 c
# Y+ C# o% y. B$ }# m5 P4 h4 K7 ?
+ g1 ~2 Y  X3 m; T+ l稍后,果然收到了女神的回复。预测成功。
" u: d, {1 x/ M+ Y6 R9 ]( }
) C  q8 R' f. f% }( [% K: q
3 c0 [  {5 {) G) F现在我们再看一遍贝叶斯公式,你现在就能明白这个公式背后的关键思想了:
8 n! y: w. G2 l! ]8 |我们先根据以往的经验预估一个"先验概率"P(A),然后加入新的信息(实验结果B),这样有了新的信息后,我们对事件A的预测就更加准确。0 g8 k3 W) ?* }' G! i

* g; h! E2 A3 i3 q
2 k1 ]9 c& L; I$ S因此,贝叶斯定理可以理解成下面的式子:, H" p. g; |8 n
后验概率(新信息出现后的A概率) = 先验概率(A概率) x 可能性函数(新信息带来的调整)
- t) Z9 M% O' g  e1 x8 t4 s贝叶斯的底层思想就是:
+ Y& `$ b; h5 }) C) f% s如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率(古典概率)。2 Y$ c/ o: y, c' z
可是生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。也就是,在主观判断的基础上,你可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。
# |0 y2 V' d- p' F* ?如果用图形表示就是这样的:' |# }9 b% ]3 Q' B

5 H2 ]8 p" F- ]$ ~8 C. [6 ?5 Z! p* g/ @* Q! S
其实阿尔法狗也是这么战胜人类的,简单来说,阿尔法狗会在下每一步棋的时候,都可以计算自己赢棋的最大概率,就是说在每走一步之后,他都可以完全客观冷静的更新自己的概率值,完全不受其他环境影响。
* u* v# s! K' R% }0 `) m
1 b, p. D# j. \* |! z- I- d0 @+ L
3.贝叶斯定理的应用案例
前面我们介绍了贝叶斯定理公式,及其背后的思想。现在我们来举个应用案例,你会更加熟悉这个牛瓣的工具。
$ a( h- q' l( Q3 A7 r为了后面的案例计算,我们需要先补充下面这个知识。2 k. b) J5 G3 w6 @% B
1.全概率公式" i5 d- C4 \, D0 F/ m( u4 b
这个公式的作用是计算贝叶斯定理中的P(B)。2 B: `' O2 c- O  \$ C0 H' j
假定样本空间S,由两个事件A与A'组成的和。例如下图中,红色部分是事件A,绿色部分是事件A',它们共同构成了样本空间S。/ \1 L  K9 a; y! u6 x# O9 G
7 L- Q& ^- N9 m/ c' H

" l6 x: g/ p: ]4 F+ g这时候来了个事件B,如下图:
0 y0 r. t$ t, v2 U6 [" F" V  e$ F
( X4 G0 w5 [2 [' K# R
5 g) S: y2 e( e, R+ J, k% T全概率公式:
7 |6 B0 f. d1 L" d# I! M$ f0 z  H3 N( N& Z+ o( t4 s+ t7 H
* l$ v( D0 `) U* P
它的含义是,如果A和A'构成一个问题的全部(全部的样本空间),那么事件B的概率,就等于A和A'的概率分别乘以B对这两个事件的条件概率之和。9 S4 t2 x  O+ I5 X3 K; O$ {

# d$ d: i/ @8 X8 A+ r# f( V* q看到这么复杂的公式,记不住没关系,因为我也记不住,下面用的时候翻到这里来看下就可以了。" T  `- }+ a2 V. g

" }. f* a: K. I案例1:贝叶斯定理在做判断上的应用# P. H  `: k: V  h
有两个一模一样的碗,1号碗里有30个巧克力和10个水果糖,2号碗里有20个巧克力和20个水果糖。
4 p+ n7 V9 Q3 f+ A3 I/ J4 o! X
( {" N" s" F, h$ d2 M. U2 [* U* y  I9 _) Z+ A5 \6 G5 [
然后把碗盖住。随机选择一个碗,从里面摸出一个巧克力。
7 p  @) H) }' p$ y% t问题:这颗巧克力来自1号碗的概率是多少?
8 D* [' |4 r1 h- u( q9 q& j1 ?! J6 u+ h8 ~* k  {+ Z3 i
好了,下面我就用套路来解决这个问题,到最后我会给出这个套路。4 N$ V6 ^6 `! I

, `; F, q+ d) l第1步,分解问题9 X. e6 W6 f/ U* L
1)要求解的问题:取出的巧克力,来自1号碗的概率是多少?' l# Y. [; r& e0 R& p( ~
来自1号碗记为事件A1,来自2号碗记为事件A2
" l6 N2 t/ ^  Z" c+ f; V取出的是巧克力,记为事件B,
* C! A, J9 |1 b" c: L9 n" K7 q那么要求的问题就是P(A1|B),也就是取出的是巧克力(B),来自1号碗(A1)的概率- u, D/ ~& [1 P* P, K% ?& Q( m
2)已知信息:
% a8 N8 [3 `' `+ J5 [" {1号碗里有30个巧克力和10个水果糖
' A# Q4 K# V7 F+ G9 ?; q' B, F& i" F2号碗里有20个巧克力和20个水果糖9 c4 p: T. t6 f5 N
取出的是巧克力0 w  B6 h: j, v+ A2 P2 h9 r# j: [

. V- v5 M% F4 i第2步,应用贝叶斯定理; A* S, D7 J) v; Q1 b3 F+ l# y5 c

- d  }* [* E, f* @& i/ g8 C6 q  E/ \
1)求先验概率
+ T, H# F+ F# ]  f9 c. |4 R! e由于两个碗是一样的,所以在得到新信息(取出是巧克力之前),这两个碗被选中的概率相同,因此P(A1)=P(A2)=0.5,(其中A1表示来自1号碗,A2表示来自2号碗)' ~) P# h; Z. K' m3 a
这个概率就是"先验概率",即没有做实验之前,来自一号碗、二号碗的概率都是0.5。
. |4 N; Y$ \$ |
4 R4 M6 [& h3 X3 V/ [$ t2)求可能性函数
& V6 P/ r0 G. A3 Y$ QP(B|A1)/P(B)% f; B$ n. ~. [  q  p- S3 {$ N1 T9 h
其中,P(B|A1)表示从1号碗中(A1)取出是巧克力(B)的概率。
: c8 u! m" e* Y# W5 W因为1号碗里有30个巧克力和10个水果糖,所以P(B|A1)=巧克力数(30)/(糖果总数30+10)=75%
2 x2 s7 h/ c/ g; D现在贝叶斯公式里只剩P(B)了,只有求出P(B)就可以得到答案。5 z1 A8 C( _* [; r6 c( p; _
根据全概率公式,可以用下图求得P(B):
7 A% G/ j6 a+ g& f: b8 w& N. }, M% ~& ]( J0 ]7 t0 e. }  n/ Y0 d

4 W1 ~! P- \* F2 [图中P(B|A1)是1号碗中巧克力的概率,我们根据前面的已知条件,很容易求出。
, I8 y- \$ ]& `; I同样的,P(B|A2)是2号碗中巧克力的概率,也很容易求出(图中已给出)。
( J9 e9 A; Z  |0 o. g而P(A1)=P(A2)=0.56 D! V: U  H7 }1 R. s: i; h* \
将这些数值带入公式中就是小学生也可以算出来的事情了。最后P(B)=62.5%
- u9 E5 {4 R4 f4 ?+ @5 q
7 i& u7 R) r% w$ m5 w- x7 Y5 w" t, \所以,可能性函数P(B|A1)/P(B)=75%/62.5%=1.2。# ?! v: ~, ]$ \* @% n0 Q
可能性函数>1.表示新信息B对事情A1的可能性增强了。
# j: D7 Z/ e5 S. m( |
$ b2 G: s* p3 R0 X3)带入贝叶斯公式求后验概率8 I6 u1 P8 p! Z+ R# ]# _5 t
将上述计算结果,带入贝叶斯定理,即可算出P(A1|B)=60%8 `3 ~/ T3 X; }

4 \& k5 f, v* S
5 Z2 l$ ]+ ]2 ~  A" J. x+ ]: Z这个例子中我们需要关注的是约束条件:抓出的是巧克力。如果没有这个约束条件在,来自一号碗这件事的概率就是50%了,因为巧克力的分布不均把概率从50%提升到60%。
" v+ e' T2 G  |+ t3 K$ i2 h1 ]6 m3 r5 Y! F* v* c
现在,我总结下刚才的贝叶斯定理应用的套路,你就更清楚了,会发现像小学生做应用题一样简单:1 J- M% o& T9 M: O& j' }; j8 A+ S
第1步. 分解问题# o1 K$ ^* B" y7 w) H& m
简单来说就像做应用题的感觉,先列出解决这个问题所需要的一些条件,然后记清楚哪些是已知的,哪些是未知的。
, X4 @7 ]% o: {% R5 R: ^3 t1)要求解的问题是什么?" @) ?# c, @  a# e
识别出哪个是贝叶斯中的事件A(一般是想要知道的问题),哪个是事件B(一般是新的信息,或者实验结果)
" E) `9 X( h9 X- P4 [8 h' e9 \2)已知条件是什么?
. ^; P$ _8 o+ Z5 g" I' I' }# c3 C8 ~+ S  y  Z2 {$ y
第2步.应用贝叶斯定理
, M1 E. d$ s: d0 P5 U0 I+ l. W0 q第3步,求贝叶斯公式中的2个指标
9 i- ^5 ?. n3 C* H* v! L' |1)求先验概率
9 U4 E5 I( H2 w2)求可能性函数
+ S( \9 j, Y+ d0 M. y( L* Z3)带入贝叶斯公式求后验概率
1 e" U  q9 W; ^# D' M
4 ~4 F9 U( n! ]( N2 l3 G$ f- e) v' b% U7 S+ C" t4 |

& k; _2 U0 @; I6 m0 W8 e" s$ D案例2:贝叶斯定理在医疗行业的应用
% K9 ?' c* h! t8 t) E每一个医学检测,都存在假阳性率和假阴性率。假阳性,就是没病,但是检测结果显示有病。假阴性正好相反,有病但是检测结果正常。
) b. @3 ?0 ?/ {& P+ }即使检测准确率是99%,如果医生完全依赖检测结果,也会误诊。也就是说假阳性的情况,根据检测结果显示有病,但是你实际并没有得病。4 Z1 h# u3 o1 z% K% v! Q. B
举个更具体的例子,因为艾滋病潜伏期很长,所以即便感染了也可能在很长的一段时间,身体没有任何感觉,所以艾滋病检测的假阳性会导致被测人非常大的心理压力。
* g8 I. @+ m3 {% H. Y  G
4 k9 M1 z$ Q; j9 B, |你可能会觉得,检测准确率都99%了,误测几乎可以忽略不计了吧?所以你觉得这人肯定没有患艾滋病了对不对?
' I9 K% Q/ U+ H让我们用贝叶斯定理算一下,就会发现你的直觉是错误的。! V& w/ x  p' |

4 U+ G% v' W" z& e0 N& O假设某种疾病的发病率是0.001,即1000人中会有1个人得病。现在有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。
! d: u' U, D  J4 d2 Z7 i8 Z现在有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?
! E2 Y% l! W: X" b; T) t2 ?: {( Y4 J3 }9 P
好了,我知道你面对这一大推信息又头大了,我也是。但是我们不是有贝叶斯模板套路嘛,下面开始。7 G! z6 s/ @5 j$ A, k, Y3 k2 R* |
$ @- w% l0 I! g- n5 n5 ^1 O) r
第1步,分解问题
' u& x) s  C$ g3 F" x: n8 y1 \6 a1)要求解的问题:病人的检验结果为阳性,他确实得病的概率有多大?
8 X. m9 g, b) K病人的检验结果为阳性(新的信息)记为事件B,他得病记为事件A,
0 U/ i8 W& ?. I. ]% L/ V0 a- @+ r$ ^' C那么要求的问题就是P(A|B),也就是病人的检验结果为阳性(B),他确实得病的概率(A)
2 h, g5 ?) {* b  h2)已知信息' R, a  p( p7 G
这种疾病的发病率是0.001,即P(A)=0.001! `: u3 _2 o+ g8 l2 H! G
试剂可以检验患者是否得病,准确率是0.99,也就是在患者确实得病的情况下(A),它有99%的可能呈现阳性(B),所以P(B|A)=0.99( l& k  n1 h- g) U/ W+ F& ^: J
试剂的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。得病我们记为事件A,那么没有得病就是事件A的反面,记为A',所以这句话就可以表示为P(B|A')=5%1 h( J! a8 |3 R/ l) U  A

3 Q+ a0 e  A: b, N9 C$ ?: m2.应用贝叶斯定理  s! i; s/ n, U, x0 W. ^, g, D

+ P0 ~  c* K; e8 s; f) u: @+ _4 c- |' d
2 o: }4 [) U6 Q& l1)求先验概率
/ Q5 y+ w. Y2 S; I) R  G' |' O9 A  k疾病的发病率是0.001,即P(A)=0.001' N* ^& U5 |! m2 m0 U& r- T
2)求可能性函数* p5 l) H% F6 n0 |: e' A. J
P(B|A)/P(B)* r3 G' O; B; B1 l# U
其中,P(B|A)表示在患者确实得病的情况下(A),试剂呈现阳性的概率,从前面的已知条件中我们已经知道P(B|A)=0.99- e7 R: p. I" P( C2 F9 G5 E4 i$ T
现在只有求出P(B)就可以得到答案。根据全概率公式,可以用下图求得P(B)=0.05094/ A4 u' _9 W/ @; M! ?

' H2 g& j. f+ ~4 V5 D; N# ^
/ H4 }+ M2 F5 w( |( ?; w所以可能性函数P(B|A)/P(B)=0.99/0.05094=19.4346
. a: Z9 b5 d- n& E' V3)带入贝叶斯公式求后验概率
( }6 I. U1 ?7 U; H- O- K6 @' _) C我们得到了一个惊人的结果,P(A|B)等于1.94%。$ l, b/ j2 k- p  K" p! E
也就是说,筛查的准确率都到了99%了,通过体检结果有病(阳性)确实得病的概率也只有1.94%
8 q, S5 D9 u" J4 g$ {: B' |5 b. d$ L6 Q
! e8 Q" i: P+ s2 C$ i8 H9 K* ^
你可能会说,再也不相信那些吹的天花乱坠的技术了,说好了筛查准确率那么高,结果筛查的结果对于确诊疾病一点用都没有,这还要医学技术干什么?) v+ L' X  r+ d: |  s
没错,这就是贝叶斯分析告诉我们的。我们拿艾滋病来说,由于发艾滋病实在是小概率事件,所以当我们对一大群人做艾滋病筛查时,虽说准确率有99%,但仍然会有相当一部分人因为误测而被诊断为艾滋病,这一部分人在人群中的数目甚至比真正艾滋病患者的数目还要高。
8 F7 ]8 R( Q/ H
! X- p( d' w8 o8 o- a3 e5 N你肯定要问了,那该怎样纠正测量带来这么高的误诊呢?
& J) J5 n3 L2 o- p3 W  u& E造成这么不靠谱的误诊的原因,是无差别地给一大群人做筛查,而不论测量准确率有多高,因为正常人的数目远大于实际的患者,所以误测造成的干扰就非常大了。5 s4 o. ]% l. u5 y
0 a: k5 _/ l4 x7 T/ Q: \) D! t
根据贝叶斯定理,我们知道提高先验概率,可以有效的提高后验概率。6 t5 J; J2 c/ w7 s! J- I
所以解决的办法倒也很简单,就是先锁定可疑的人群,比如10000人中检查出现问题的那10个人,再独立重复检测一次。因为正常人连续两次体检都出现误测的概率极低,这时筛选出真正患者的准确率就很高了,这也是为什么许多疾病的检测,往往还要送交独立机构多次检查的原因。) e5 g  F1 @  K4 S0 G6 z6 O8 t2 k5 E
这也是为什么艾滋病检测第一次呈阳性的人,还需要做第二次检测,第二次依然是阳性的还需要送交国家实验室做第三次检测。( b; [3 L' l, W7 W/ U) q
在《医学的真相》这本书里举了个例子,假设检测艾滋病毒,对于每一个呈阳性的检测结果,只有50%的概率能证明这位患者确实感染了病毒。但是如果医生具备先验知识,先筛选出一些高风险的病人,然后再让这些病人进行艾滋病检查,检查的准确率就能提升到95%。
8 S& f7 v$ r7 w  W, ^
; R4 U& {6 H. j: I( r案例4:贝叶斯垃圾邮件过滤器, n4 n# H# w) W  b/ p
垃圾邮件是一种令人头痛的问题,困扰着所有的互联网用户。全球垃圾邮件的高峰出现在2006年,那时候所有邮件中90%都是垃圾,2015年6月份全球垃圾邮件的比例数字首次降低到50%以下。
& b1 u) ?1 b. A$ a# {) [, y最初的垃圾邮件过滤是靠静态关键词加一些判断条件来过滤,效果不好,漏网之鱼多,冤枉的也不少。2 q, u. s- T! q5 T, P" K9 I6 `/ k# ]
2002年,Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可以过滤掉995封,且没有一个误判。
5 x! \. w( r0 u$ p  ?+ {' i* Q
+ I# Z) S. R$ d7 O" p5 S" ~6 j  v% d因为典型的垃圾邮件词汇在垃圾邮件中会以更高的频率出现,所以在做贝叶斯公式计算时,肯定会被识别出来。之后用最高频的15个垃圾词汇做联合概率计算,联合概率的结果超过90%将说明它是垃圾邮件。
: T! M5 t4 U1 _8 I- V2 g4 b
  m0 D* f: g% g" z5 z6 |8 j' G9 @用贝叶斯过滤器可以识别很多改写过的垃圾邮件,而且错判率非常低。甚至不要求对初始值有多么精确,精度会在随后计算中逐渐逼近真实情况。
( V; u5 @$ V" b! V4 R(ps:如果留言想详细了解这个知识的很多,我后面会专门写文章来回答大家)
% W" G) `' y+ r7 h# v* C# `& ]8 u0 q( Z6 p7 }; ^! \/ y
4.生活中的贝叶斯思维
贝叶斯定理与人脑的工作机制很像,这也是为什么它能成为机器学习的基础。
( L+ ^/ z" Q0 R5 I8 q9 N4 s如果你仔细观察小孩学习新东西的这个能力,会发现,很多东西根本就是看一遍就会。比如我3岁的外甥,看了我做俯卧撑的动作,也做了一次这个动作,虽然动作不标准,但也是有模有样。
3 g$ f/ T1 H. |/ b3 L: o同样的,我告诉他一个新单词,他一开始并不知道这个词是什么意思,但是他可以根据当时的情景,先来个猜测(先验概率/主观判断)。一有机会,他就会在不同的场合说出这个词,然后观察你的反应。如果我告诉他用对了,他就会进一步记住这个词的意思,如果我告诉他用错了,他就会进行相应调整。(可能性函数/调整因子)。经过这样反复的猜测、试探、调整主观判断,就是贝叶斯定理思维的过程。
0 B: B/ D! j7 `8 f
, {& F. |/ B- ~& E" W1 a$ {" D( `* O3 }' J同样的,我们成人也在用贝叶斯思维来做出决策。比如,你和女神在聊天的时候,如果对方说出“虽然”两个字,你大概就会猜测,对方后面九成的可能性会说出“但是”。我们的大脑看起来就好像是天生在用贝叶斯定理,即根据生活的经历有了主观判断(先验概率),然后根据搜集新的信息来修正(可能性函),最后做出高概率的预测(后验概率)。
$ u/ c, b4 d# c0 Q0 }! a' T7 R3 v& u) L. L9 Q6 I, k" b* J( P1 z9 n
其实这个过程,就是下图的大脑决策过程:( D2 `' B/ T2 S. i( T  K7 v( r( g
7 i  g  b; B9 ]8 U% ]! e# |

+ _! Z) `0 z6 F- \" c( x# Z/ U所以,在生活中涉及到预测的事情,用贝叶斯的思维可以提高预测的概率。你可以分3个步骤来预测:" e' p5 @6 p! h, h# l
1.分解问题, s# X7 n8 J- w1 y" B3 G7 t
简单来说就像小学生做应用题的感觉,先列出要解决的问题是什么?已知条件有哪些?5 F+ H4 i4 K; t9 X* g
2. 给出主观判断
' m, q( U( q( h6 a- ~6 H不是瞎猜,而是根据自己的经历和学识来给出一个主观判断。
( e7 a' A9 C. p2 j& x! c1 N3.搜集新的信息,优化主观判断- T8 J9 y( N8 o0 ~/ t  K
持续关于你要解决问题相关信息的最新动态,然后用获取到的新信息来不断调整第2步的主观判断。如果新信息符合这个主观判断,你就提高主观判断的可信度,如果不符合,你就降低主观判断的可信度。
6 k! ?( f2 ~. U; X* [' M! T* B+ l: |1 x6 w/ r+ V6 [
比如我们刚开始看到“人工智能是否造成人类失业”这个信息,你有自己的理解(主观判断),但是当你学习了一些数据分析,或者看了些这方面的最新研究进展(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(调整因子),最后重新理解了“人工智能”这个信息(后验概率)。这也就是胡适说的“大胆假设,小心求证”。+ k5 T' d/ m) {+ F, W
, e6 i+ y* C+ v' W# a+ u
概率的基础知识补充:8 X: i6 M# f0 h: w* @; v

5 h* d; ?$ @3 ]8 ?2 z  y参考资料:- X4 M7 ~2 r- e2 e
YouTube英文视频《Thomas Bayes: Probability for Success》
$ k3 L4 e7 x# q# {  Z8 PYouTube英文视频《Everything You Ever Wanted to Know About Bayes' Theorem But Were Afraid To Ask.》
7 @) J) Z" z& M9 U  B( z1 g& ]贝叶斯垃圾邮件过滤器:http://www.paulgraham.com/spam.html) T: G2 r3 M) i% T9 L
贝叶斯垃圾邮件过滤Wiki:https://en.wikipedia.org/wiki/Naive_Bayes_spam_filtering$ `6 P# O' [: M9 E- F: w6 G
贝叶斯推断及其互联网应用(一)
0 g1 R0 [6 j  i《联邦党人文集》背后的统计学幽灵
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

213

金钱

0

收听

0

听众
性别

新手上路

金钱
213 元