【專題報導】真的假不了,假的真不了──數據造假前請考慮「機率」

【專題報導】真的假不了,假的真不了──數據造假前請考慮「機率」

第二屆數感盃青少年數學寫作競賽
高中組專題報導類
佳作《真的假不了,假的真不了──數據造假前請考慮「機率」》陳宥諼、林昱佑/國立科學工業區實驗高級中學

 



真的假不了,假的真不了──數據造假前請考慮「機率」

  最近在網路上看到了一則去年的新聞:一名在學術期刊等公共平台發表了高達200多篇論文的日本麻醉醫師──藤井善隆,被抓到長期偽造數據,並有高達183篇論文遭到撤稿,且數量仍持續增加。引起學界注意的投訴信中說道:「藤井的研究數據完美到難以置信。」
   
   最早開始懷疑藤井數據造假的人之一,英國麻醉師John Carlisle觀察了藤井一百多批藥物實驗的數據,並計算了那些數據的隨機分佈,結果發現藤井的數據在統計分析下其實「發生機率極低」。也就是說,藤井的數據雖然看起來漂亮,但實際上卻是「不自然的」。
  
  這使我們產生了興趣:我們所認定「正常」、「隨機」的數據,會不會只是我們主觀直覺思考時所產生的假象?然而事實上卻不符合真實機率?讓我們看一個簡單的例子:
  
  假設老師出了一項作業,請學生每人投擲一枚公正硬幣1000次,並記下每一次的結果;但是,這項作業實在是太繁瑣了,學生們都想直接自己編數據交差了事──「反正,本來得到的結果就是『隨機』的啊!我只要在記錄表上隨便填上「正」或「反」就好了!」於是,大部分的人會編出類似這樣的數據:
   

  「正反反正反正正反正反反反正……」
   

  看起來真的「很隨機」呢!
  可是,收作業當天,老師卻一眼就找出了所有偷懶的同學(絕對不是因為有內鬼!)──「你們還太嫩了!實際去丟銅板要丟出這種結果,機率還真的不是一般的低啊……」老師一臉不屑的說。
  「機率」?!終於有同學抓到關鍵字了。
   
  其實,如果真的自己丟銅板的話,會發現可能出現這樣的結果:
   

  「……正反正正正正正正正正正正反正正正正……」

  怎麼連續這麼多的「正」啊!
  不過,如果反過來想,要是丟很多很多次,卻沒出現連續好幾個相同面朝上才奇怪呢!
   
  什麼意思呢?以機率的角度來看──
  假設丟一個公正銅板n次,求至少出現1組連續y個以上正面朝上的機率。則機率f(n)=
  (令擲出結果正面朝上為「+」、背面朝上為「-」;連續y個以上「+」為串列S)
   
  1. 若0<=n<y
  因為擲的次數不滿y次,所以就算全部擲出正面,也無法滿足條件。
  故,
        f(n) = 0
   
  2. 若n=y
  必須保證每一次都擲出正面,而每一次擲出正面的機率都是1/2 ,所以:
  
        f(n) = (1/2)^y
   
  3. 若 y<n<(2y+1)
    最多只可能出現1組S,且要擲出S只有兩種方法:
   

    (1) 在前n-1次就已經擲出S (令機率=g(n))

  如果前n-1次已經擲出S,不管最後一次(n)擲出「+」或「-」,都不會影響結果。故

 

g(n) = f(n-1)

 

  (2) n-1項未出現S,擲出最後一項為「+」,和前面的「+」合併後恰形成一個S (令機率=h(n))

  此即保證最後的至少y項皆擲出「+」(  (i)n-y+1項到第n項一定為「+」)。然而,若S的長度>y (即第n-y, n-y-1, …項也為正),那麼在前n-1項時,就已經形成S了,機率就又回到g(n)。所以,可以保證  (ii)此種方式的第n-y項絕對不為「+」。另外,還須確保前n-y-1項未出現S:由於n< (2y+1),已經確定第n-y項為「-」的情況下,第1項到第n-y-1項最多只有2y(全部)-y(最後湊出的S)-1(為「-」的第n-y)= (y-1) 項,就算全部擲出「+」也無法湊出S (  (iii)欲使該區間內未出現S的機率為100%)

考慮(i)(ii)(iii),可求出機率為:

                       

h(n) = (1/2)^(y+1)*100%

                       

(1) (2) 兩種方法可得出,y< n< (2y+1)時:

                       

f(n) = g(n)+h(n) = f(n-1)+(1/2)^(y+1)

  4. 若n>= (2y+1)
  想要達成條件同樣有2種方法,且要注意可能出現2組以上的S:
     (1) 在前n-1項就已經出現S (令機率為g(n))

  同3.(1):如果在前n-1項就已經符合條件(即至少有一個S),那麼不管最後一項擲出「+」或「-」都不影響,故得:

 

g(n) = f(n-1)

                       

  (2) n-1項未出現S,擲出最後一項為「+」,和前面的「+」合併後恰形成一個S (令機率=h(n))

加上最後一次(n)的「+」恰形成一個S,即第 (n-y+1)項到第n項都必須保證為「+」,且第n-y項為「-」,  (i)此機率為(1/2)^(y+1)。同時,還要考慮第1項到第n-y-1項中不能出現S:由於n>= (2y+1),該區間是有可能存在另一個S的,因此要避免其的機率為  (ii) 1-f(n-y-1)

綜合與(i)(ii),得出:

                       

                                 h(n) = [1-f(n-y-1)] / [2^(y+1)]

                       

  故,若n>=(2y+1),則機率等於: 

f(n) = g(n)+h(n) = f(n-1)+ [1-f(n-y-1)] / [2^(y+1)]

 


  所以,由上述討論,可推出其遞迴關係式為:
    
  
  
  
  回到銅板問題:若取y=10,以程式執行計算後:
  當擲銅板次數n=1421時,
  
  f(1421)=7, 255, 778, 711, 927, 407, 617, 380, 544, 769, 173, 867, 806, 169, 361, 486, 522, 866, 802, 980, 651, 539, 660, 838, 223, 377, 066, 752, 145, 420, 755, 231, 929, 187, 093, 761, 722, 303, 645, 267, 912, 580, 455, 689, 572, 071, 800, 452, 693, 464, 700, 240, 325, 620, 941, 411, 943, 308, 843, 940, 722, 468, 017, 918, 536, 598, 081, 098, 266, 744, 747, 888, 440, 887, 321, 884, 634, 359, 498, 815, 523, 739, 396, 906, 549, 246, 415, 109, 283, 793, 846, 209, 720, 465, 402, 081, 202, 745, 609, 492, 452, 509, 025, 795, 069, 716, 361, 505, 310, 397, 746, 161, 836, 302, 227, 941, 580, 885, 870, 210, 044, 773, 666, 072, 022, 038, 700, 421, 605, 273, 419, 973, 038, 879, 144, 857, 154, 157, 912, 879, 478, 392, 261  /  14, 5 06, 540, 244, 799, 649, 295, 363, 967, 385, 272, 259, 250, 661, 462, 164, 996, 145, 242, 670, 971, 396, 368, 427, 928, 550, 752, 333, 318, 302, 269, 391, 954, 931, 996, 110, 373, 344, 247, 437, 783, 405, 976, 812, 508, 208, 014, 387, 645, 084, 573, 461, 084, 331, 611, 962, 071, 030, 245, 089, 177, 219, 397, 347, 545, 783, 897, 084, 779, 561, 785, 928, 834, 057, 620, 352, 012, 602, 971, 900, 896, 382, 103, 058, 767, 619, 551, 583, 898, 875, 428, 087, 721, 830, 150, 897, 600, 890, 899, 165, 970, 697, 060, 836, 381, 274, 022, 825, 694, 219, 432, 474, 834, 063, 680, 015, 967, 772, 773, 093, 077, 100, 779, 252, 371, 658, 190, 278, 159, 625, 450, 473, 401, 620, 223, 010, 779, 161, 044, 426, 883, 596, 288
  (這是一個分數,並且是精確數字,由此可見計算的繁雜度!)
  
  總之,f(1421)≒0.5001729281748267≒50%
  也就是說,當擲1421次銅板時,出現至少一組連續10個以上正面的機率就已經略超過1/2。
  
  另外,當擲3288次時,機率會再近一步提升至80%;甚至擲9391次,機率已經達到99%。換句話說,假設擲1萬次,幾乎可以保證一定會看到至少一組連續10個以上的正面。
  
  然而,一般人在編造數據時,很少會連續寫下很多個正面(或反面),因為直覺上要連續擲出那麼多次相同的結果機率應該很低。正是利用這點,所以,光憑「是否出現連續多次相同結果」這個事件,就足以初步判斷數據的真實性,更遑論除此之外,還有更多事件的真實發生機率也有待計算。
  
  想要得出符合真實機率的「完美」數據,與其絞盡腦汁、分析各種事件的機率(而且不太可能分析的完),倒不如穩扎穩打的完成,或許還快些。
  
  再者,在學校偽造作業數據頂多受到老師的批評或輕微的懲罰;但出社會後,要面對的可能是正式的論文、一份財報、甚至是一份關乎人命的實驗報告!造假的後果除了損失聲譽、失去工作,更有可能因此遭受牢獄之災。與其耗費大量精力試圖求出「毫無破綻」的造假方法,卻還要冒著被拆穿的風險苟且偷生,還不如腳踏實地,安分地完成任務,才是正道!

 

近期活動

  • 敬請期待

近期課程

  • 敬請期待