“我們的大腦生來就不太會搞概率,所以這么多人弄錯也正常?!?/p>
撰文 秦芊(佛羅里達大學(xué)統(tǒng)計系)
編輯 丁家琦
概率作為對可能性大小的度量,似乎充滿了主觀色彩。明天下雨的可能性有多高?曼聯(lián)奪得下屆英超冠軍的概率有多大?在一盤棋中AlphaGo的獲勝概率是多少?我們身邊的每個人對這樣的問題都有著不同的答案。
然而,概率似乎又有它自己的鐵律。在帕斯卡等人最初用二項式定理研究賭桌上的勝率時,人們已經(jīng)意識到在骰子和輪盤看似不可預(yù)知的行為背后,藏著一套可以被掌握的數(shù)學(xué)規(guī)律。一意孤行或者是聽天由命,違背這套規(guī)律的賭徒可能在一兩個晚上大獲全勝,卻最終一定會受到概率的懲罰。隨著人類數(shù)學(xué)與計算水平的提高,概率論被應(yīng)用到越來越多的領(lǐng)域之中。在金融、統(tǒng)計、物理、氣象、生物等諸多學(xué)科,那些依靠直覺而不是計算對可能性進行推斷的日子已經(jīng)一去不復(fù)返了。在本文中,我們介紹幾個概率謎題。它們向我們展示了,對于概率,直覺并不總是可靠——但經(jīng)過足夠的思考和踏實的實驗與計算,我們常常能夠戰(zhàn)勝錯覺,抵達真相。
三門問題
上世紀(jì)五十到八十年代,科普作家馬丁·加德納(Martin Gardner)為《科學(xué)美國人》撰寫了近300期的“數(shù)學(xué)游戲”專欄。在其中一期專欄中[1],加德納描述了一個名為“三囚犯”的概率問題。這個問題的一個變種后來成為了網(wǎng)絡(luò)上最著名的概率趣題之一。這一變種(Monty Hall 三門問題)的描述如下:
假設(shè)你參與一個綜藝節(jié)目,并被要求從三扇門中選擇一扇打開:一扇門的背后是獎品(一輛汽車),另外兩扇門后則各是一只山羊。當(dāng)然,比起山羊,你更希望抽中汽車。你隨機選擇了一扇門(不妨設(shè)為第一扇)。節(jié)目的主持人知道每扇門背后是什么??吹侥愕倪x擇后,他選擇了剩下兩扇門中沒有獎品的一扇打開(如果兩扇門后都沒有獎品,則以各50%的概率隨機選擇其中一扇)。不妨假設(shè)他打開了第三扇。接著他問你,你想改選第二扇門嗎?為了提高獲獎概率,你有必要改變你之前的選擇嗎?
(圖片來源:作者繪制)
這一問題的正確答案是,你應(yīng)當(dāng)改選第二扇門——這樣做讓你的中獎概率從1/3提高到了2/3。1990年,當(dāng)這個問題——以及它的正確答案——在美國暢銷雜志《Parade》的一個專欄上重新出現(xiàn)時,近萬名讀者,包括“近千名博士”[2],寫信給專欄作者瑪麗蓮·沃斯·莎凡特(Marilyn vos Savant),其中絕大部分反對這一答案。人們似乎認為,主持人打開第三扇門后,第一扇門和第二扇門后藏有獎品的概率都是1/2,因此改選第二扇門并無好處。面對滔天的反對聲,瑪麗蓮據(jù)理力爭,拒不認輸,連寫三篇專欄解釋自己的答案。她同時在專欄上實名公布了不少讀者來信。一些反對的聲音摘抄如下[3]。
“你錯了。但看看好的一面:假如那么多博士們都說錯了,那這個國家就麻煩了?!?/p>
“我相信你一定收到了很多來自高中生和大學(xué)生的來信?;蛟S你應(yīng)該記下幾個來信地址,好在將來專欄出問題時請教他們?!?/p>
“我希望這次的爭議能夠讓公眾意識到我們國家的教育危機……到底還需要多少個盛怒的數(shù)學(xué)家才能改變你的想法?”
“或許女人看待數(shù)學(xué)問題的方式和男人不一樣。”
“你就是那只山羊!”
瑪麗蓮笑到了最后[4]。她倡議全美國的數(shù)學(xué)課堂用紙杯和硬幣模擬三門問題,并獲得了中小學(xué)老師們的支持:毫無疑問,改選第二扇門將獲獎概率提升了一倍。在正確答案終于被確認無誤后,有人提出了一些簡單的、基于直覺的推理來方便人們理解,但這些推理往往又在對題目稍加改變后失效[4]。時至今日,學(xué)者們?nèi)匀粚θ藗兘o出錯誤答案的原因津津樂道。這一看上去很簡單的趣題,卻從各方面給了人們十足的挑戰(zhàn)。
現(xiàn)在給出這個問題的一種解法:我們將計算出,在主持人打開第二扇門后,獎品藏在第三扇門后的概率是2/3。
考慮我們的節(jié)目參與者(前文中的“你”)在選擇了第一扇門后、主持人打開第三扇門之前面對的情形。她可以想象自己等可能地處在許多個(比如說600個)“平行世界”中的一個。在其中1/3的,即200個世界里,獎品藏在第一扇門后。我們把這些世界標(biāo)記為1到200號。類似的,在201到400號世界里,獎品藏在第二扇門后;在401到600號世界里,獎品藏在第三扇門后。
現(xiàn)在,主持人打開了第三扇門。參賽者便意識到,有一些平行世界被“篩選”了出來。 具體地說,在第1到200號世界中,第二與第三扇門后都沒有獎品,主持人隨機選擇其中一扇門打開。在這200個世界中,第三扇門在一半的世界中被打開——我們不妨假設(shè)它們?yōu)榈?01至第200號世界。在201到400號世界里,由于獎品在第二扇門背后,主持人總是選擇第三扇門打開。而在401到600號世界里,由于獎品本就在第三扇門背后,主持人不可能打開第三扇門——一旦參賽者看到第三扇門被打開,她就能確定自己必定不處在這200個世界之中。
綜合來考慮,我們發(fā)現(xiàn)在第三扇門打開后,參賽者等可能地存在于第101號到400號世界之中。在其他的300個世界中,第三扇門都沒有被打開,因此她必不處在其中任何一個。現(xiàn)在,我們只需要數(shù)數(shù)在第三扇門被打開的300個世界中,有多少個的獎品藏在第二扇門中。顯然,這樣的世界有200個(201號到400號)。因此改選第二扇門獲獎的概率為200/300=2/3。
表格1 各種情況發(fā)生的世界。因為主持人打開了第三扇門,參與者只可能處在101-400號(黃色)的世界中。括號中的數(shù)字為各種情況在所有世界中所占的比例。
獎品位置
主持人打開的門
世界編號
第一扇門
(1/3)
第二扇門
(1/3×1/2)
1-100
(1/6)
第三扇門
(1/3×1/2)
101-200
(1/6)
第二扇門
(1/3)
第三扇門
(1/3)
201-400
(1/3)
第三扇門
(1/3)
第二扇門
(1/3)
401-600
(1/3)
在上述的推導(dǎo)中,101號到400號平行世界被概率學(xué)家們稱作“樣本空間”。它是在我們計算概率時所有可能性的總體。在這個問題中,它包含了所有“第三扇門被主持人打開”的可能情況。我們所計算的概率,則被稱為在“第三扇門被主持人打開”的情況下,“獎品在第二扇門后”的“條件概率”??梢哉f,在古典概率論中,除了語焉不詳?shù)谋硎鐾猓瑳]有什么比條件概率更容易產(chǎn)生違反直覺的結(jié)論了。
癌癥篩查結(jié)果呈陽性,先別慌?
下面這道教材中經(jīng)典的題目[5],就是條件概率在實際生活中沖擊直覺的另一個例證。
在一次例行體檢中,一位女性接受了乳腺癌的X光檢測。根據(jù)以往經(jīng)驗,在與該受檢者年齡、家庭病史、體態(tài)等指標(biāo)類似的女性群體中,乳腺癌的發(fā)病率大約是1%。檢測結(jié)果呈陽性。當(dāng)然,由于誤差的存在,陽性并不意味著受檢者必然患病。通過查閱文獻,醫(yī)生得知對乳腺癌患者,該檢測正確地得到陽性結(jié)果的概率為79.2%;而對非乳腺癌患者,該檢測錯誤地得到陽性結(jié)果的概率只有9.6%。假設(shè)這兩個概率與受檢者的年齡、家庭病史、體態(tài)等其他指標(biāo)基本無關(guān)。請問該受檢女性患乳腺癌的概率有多大?
在一項針對內(nèi)科醫(yī)生的調(diào)查中,大約95%的受訪者認為該女性的患病概率在75%上下[6]。然而正確答案卻出乎意料——只有不到8%。
表格2 各個情況的世界數(shù)目及比例。由于結(jié)果呈陽性,我們必處于被標(biāo)記為黃色的792+9504個世界中。
是否患乳腺癌
檢測結(jié)果
世界數(shù)目(比例)
是(1%)
陽性
(1%×79.2%)
792
(0.00792)
陰性
(1%×20.8%)
208
(0.00208)
否(99%)
陽性
(99%×9.6%)
9504
(0.09504)
陰性
(99%×90.4%)
89496
(0.89496)
讓我們站在問題里醫(yī)生的角度考慮這一問題。首先,我們需要確定所處的樣本空間。再次假想在許多個(比方說,10萬個)平行世界中,這位女性受檢者接受了X光檢測。在頭1%,即1000個世界中,該女性患有乳腺癌;在其他99%,即99000個世界中她則沒有患病。在頭1000個世界里,有79.2%,即792個世界中的檢測結(jié)果呈陽性;在另外99%的世界中,有99000×9.6%=9504個世界中的結(jié)果呈陽性。既然我們觀測到的檢測結(jié)果為陽性,我們的樣本空間即是792+9504=10296個結(jié)果呈陽性的世界。在這約一萬個世界中,受檢女性在792個里確實患病。因此,該女性的患病概率是792/10296=7.69%。這比調(diào)查中大多數(shù)醫(yī)生的估計要低出許多。這是因為他們并沒有充分地將乳腺癌的低發(fā)病率(1%)納入考慮。
當(dāng)然,隨著醫(yī)學(xué)的發(fā)展,如今很多疾病篩查的假陽性概率可以控制到很低,所以,如果檢測到陽性結(jié)果也不要麻痹大意,一定要以醫(yī)生的判斷為準(zhǔn)。
為什么你的朋友比你更受歡迎?
1991年,根據(jù)上世紀(jì)60年代初在12個高中采集的學(xué)生社交數(shù)據(jù),Scott Feld發(fā)表了一篇名為“為什么你的朋友們比你有更多朋友”的論文[6]。作者證明了在幾乎所有的社交網(wǎng)絡(luò)中,平均上來講,人們的朋友數(shù)目要低于他們的朋友的朋友數(shù)目(見圖1)。在人們發(fā)現(xiàn)這個悲傷的事實后,相關(guān)的研究一發(fā)不可收拾,有的研究還提出了一些更強的結(jié)論。比如說,對于大多數(shù)人來說,他(她)的大多數(shù)朋友要比他(她)有更多的朋友。這個結(jié)論比Feld提出的平均意義上的結(jié)論要更強,也不總是成立,但在理論和實證上都有證據(jù)支持[7]。有趣的是,人們似乎對此毫不自知,甚至傾向于認為相比于自己的朋友們,自己擁有的朋友數(shù)目更多[8]。所有類似于“你的朋友們比你有更多朋友”的結(jié)論因此被通稱為“友誼悖論”。
圖1. Feld所研究的一個社交網(wǎng)絡(luò)。網(wǎng)絡(luò)中的每個節(jié)點代表一名學(xué)生。如果兩個學(xué)生是朋友,則她們的節(jié)點由一條邊連接。 每個節(jié)點所擁有的邊的數(shù)目即是該學(xué)生的朋友數(shù)。學(xué)生名字下方的括號中記錄了她的朋友們的朋友數(shù)的均值和中位數(shù)。有5名學(xué)生(Betty, Jane, Pam, Dale和Tina)的朋友數(shù)比自己朋友的平均朋友數(shù)要低;而只有2名學(xué)生(Sue和Alice)的朋友數(shù)比自己朋友的平均朋友數(shù)要高。
我們現(xiàn)在嘗試用之前講到的條件概率粗略地說明為什么我們的朋友可能比我們更善于交友。假設(shè)小明交朋友的能力在人群中處于中游——大約有50%的人比他更善于交朋友,另外50%的人交友能力比他差。小華是小明的朋友。那么,小華的交友能力更可能比小明強還是弱呢?用條件概率的語言來說,我們希望得到在“小華是小明的朋友”的情況下,“小華強于小明”的條件概率——特別地,既然小明的交友能力處在人群中游,這一概率是否仍是1/2?
表格3 列出了小明與小華交友的各種情況。既然小華與小明是朋友,樣本空間由黃色標(biāo)記的情況構(gòu)成。
我們再次想象許多個等可能的平行世界,每個世界中有一個小華的“副本”。因為小明的交友能力處于人群的中游,所以在其中一半的世界中,小華強于小明;在另一半世界里,小華弱于小明。我們用下述公式表達這些世界中小華的交友能力:
頭一半世界中的小華>小明>后一半世界中的小華
既然小明的交友能力已經(jīng)給定,兩人的交友概率與小華的交友能力正相關(guān)。因此,比起后一半世界,在頭一半世界中有更多的小華副本同小明交友,即(見表格3):
小華強于小明且兩人交友的世界數(shù)(a)>小華弱于小明且兩人交友的世界數(shù)(b)
我們已知小明和小華成了朋友。因此,我們的樣本空間是所有小明與小華交友的世界。所求的概率便是樣本空間中小華強于小明的世界的比例,即
由于a>b,上述比例必然大于1/2。也就是說,在小明與小華是朋友的條件下,小華強于小明的概率大于1/2,即小華更有可能比小明更擅長交友。那么,小華比小明有更多朋友也就不足為奇了。
上面簡易的推導(dǎo)當(dāng)然不能直接得出“你的朋友們比你有更多朋友”。取決于我們?nèi)绾卧忈屵@一命題,友誼悖論的嚴(yán)格證明可難可易。英文問答網(wǎng)站Quora上有一篇關(guān)于友誼悖論的研究現(xiàn)狀的精彩綜述[9]。
在評論三門問題時,斯坦福大學(xué)的概率和統(tǒng)計學(xué)家Persi Diaconis這么說道[2] :“我不太記得我的第一反應(yīng)是什么了……但我知道對于許多類似的問題,我的第一反應(yīng)是錯的。” Diaconis同時是名職業(yè)魔術(shù)師。諳熟幻術(shù)的他這樣總結(jié):“我們的大腦生來就不太會搞概率,所以這么多人弄錯也正常?!?/p>
幸運的是,像三門問題這樣的幻術(shù)在人們反復(fù)的討論中不斷地被破解,甚至理解。與這樣的討論相伴的,是人們——從學(xué)者到大眾——對概率的更為深入的了解。在給瑪麗蓮的信件中,一名小學(xué)老師說道:“我們的班級,以高漲的熱情,驕傲地宣布數(shù)據(jù)支持你的立場?!睙o論是通過計算、模擬,還是實驗,人類擁有超越自身直覺的手段。
參考文獻
[2] Tierney, John (21 July 1991). "Behind Monty Hall's Doors: Puzzle, Debate and Answer?". The New York Times
[3] vos Savant, Marilyn (1990 to 1991). "Ask Marilyn". Parade Magazine. URL: http://marilynvossavant.com/game-show-problem/
[4] Rosenthal, Jeffrey S. "Monty hall, Monty fall, Monty crawl." Math Horizons 16.1 (2008): 5-7.
[5] Eddy, David M. "Probabilistic reasoning in clinical medicine: Problems and opportunities." (1982).
[6] Feld, Scott L. "Why your friends have more friends than you do." American Journal of Sociology 96.6 (1991): 1464-1477.
[7] Lattanzi, Silvio, and Yaron Singer. "The power of random neighbors in social networks." Proceedings of the Eighth ACM International Conference on Web Search and Data Mining. ACM, 2015.
[8] Zuckerman, Ezra W., and John T. Jost. "What makes you think you're so popular? Self-evaluation maintenance and the subjective side of the" friendship paradox"." Social Psychology Quarterly (2001): 207-223.
[9] https://www.quora.com/Is-the-friendship-paradox-fallacious
【版權(quán)聲明】凡本站未注明來源為"中國科學(xué)網(wǎng)"的所有作品,均轉(zhuǎn)載、編譯或摘編自其它媒體,轉(zhuǎn)載、編譯或摘編的目的在于傳遞更多信息,并不代表本站及其子站贊同其觀點和對其真實性負責(zé)。其他媒體、網(wǎng)站或個人轉(zhuǎn)載使用時必須保留本站注明的文章來源,并自負法律責(zé)任。 中國科學(xué)網(wǎng)對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。
【特別提醒】如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。郵箱 biz@minimouse.com.cn