離 2008 美國總統大選投票日只剩七天了。各家媒體、民調公司都不斷強調他們的數據最為可信,但是和台灣一樣,美國部份媒體或民調公司因為有特殊的立場而影響了民調的準確程度。每次大選到了這時候網路上就有許多選情分析網站如雨後春筍般冒出來。有的網站甚至有左右選情的影響力。好比 John McCain 最後選擇名不經傳才上任阿拉斯加州長兩個月的 Sarah Palin 當副總統候選人,就是來自一個政論部落格提供的建議。

 

今年網路上出現了一個與眾不同的民調分析部落格:FiveThirtyEight.com。乍看之下和其它選情分析網站沒什麼兩樣,雖然畫面不像 cnn politics 那樣精美有互動性,但是麻雀雖小五臟俱全,不論是餅圖、州圖、參議員選情、該有的都有了。而且還有很多怪怪的東西,好比 Win Percentage、Electoral Vote Distribution、民調加權等……好像很熟悉,又不常在政治網路上看到的東西。而邊欄上最突兀的東西莫過於此……

 

 image

Baseball Prospectus – Your Primary Source for independent baseball news, analysis and statistics

 

赫,這不是對美職有涉獵棒球迷都常常用到的 Baseball Prospectus 嗎?BP 是個專門負責棒球新聞、歷史數據、棒球分析和賽柏數據研究的網站。為什麼一個政治分析網站會出現 Baseball Prospectus 的連結呢?難道現在除了走私政治到棒球文裡,也開始流行走私棒球到政治文裡嗎?其實這個網站的創始人 Nate Silver 正是 Baseball Prospectus 的特約棒球分析師。如果熟悉 BP 的人,或是平常有在玩 Fantasy Baseball 的人可能還知道他就是 PECOTA 的發明者。

 

PECOTA 是 BP 有專利的數據,公式到現在都不曾公開過。 2007 年時, Silver 的 PECOTA 預測 2005 年拿過世界冠軍白襪隊季末僅會繳出72勝-90敗的成績,引起覺得被看扁的芝加哥球迷強烈不滿,但該年結算白襪隊戰績剛好是 72勝- 90 敗。也許 PECOTA 沒有真的如 BP 所宣稱準到連一名球員今年會打幾支安打都能預料中, 但是被 Fantasy Baseball 的行家奉為圭臬倒是真的。

 

image image

Win Percentage 和州圖,紅色為共合黨、藍色為民主黨

 

至於一位成名的棒球分析師為什麼撈過界來搞政治分析呢? Silver 在自我介紹中指出,棒球和選舉都需要借以數據來安排未來的策略。所以分析棒球和分析選情其實沒有太大的差別。但是數據往往被誤用,好比棒球以往偏重打擊率,而忽略了更能反應贏球的上壘率與長打率。而政治人物往往不知道參考哪個民調才能最準確反應選情。因此棒球分析和選舉分析對 Silver 來說就像兩種不同的運動,但所用到的技能是一樣的。

 

他的政治分析網站叫 538 是因為美國總統大選中總共有 538 張選舉人票。一開始這個今年二月才成立的政治分析部落格根本沒人在乎, Nate Silver 當時也用代名撰寫文章。五月初民主黨 Barack Obama v.s. Hillary Clinton 的黨內初選正如火如荼時,各大媒體和民調公司紛紛預測前第一夫人 Hillary Clinton 將會在重要的印地安那州領先 5%,而在北卡羅萊納會小輸 8%,進而拿下關鍵性勝利。但是 Silver 打著 Poblano 的代稱於 FiveThrityEight.com 指出,根據過去黨內初選的結果,參考戶口資料,綜合各大民調,並加以校正加權後,按照演算的結果 Hillary 僅會在印地安那州贏 2%,而在卡羅萊納反而會大敗 17%。

 

image

民調加權分析

 

當兩州的初選結果出爐後,Hillary 在印地安那州僅以 1% 勝出,在北卡落後 15%。準確度遠勝各大知名民調,知名媒體如衛報、紐約郵報紛紛要求 FiveThrityEight.com 解釋準確分析背後的秘訣。使得 FiveThrityEight.com 一夕間爆紅。每日湧進超過 70 萬名讀者,讀者足足成長了 5,000%。強力的曝光度也使得 Silver 必須走到幕前公開他的身份,並解釋了他分析選情的基本概念。其中不難看出棒球分析的影響。

 

首先 Silver 依照各個民調單位的歷史紀錄、民調抽樣的人數、民調的即時性給於加權。過去預測越準確、抽樣人數越多、離現在最近的民調會得到較高的加權。再將所有的民調資料用該州的戶口資料做迴歸分析,去除游離的民調結果。接著以推計統計方法(distribution)預測趨勢線,好模擬沒有被抽樣的區域。最後依照自 1952 年起的總統大選結果,並參考相似區域會做出同樣決定的特性,模擬選舉 10,000 次。這才得到最後機率的推測值。 FiveThrityEight.com 並且固定的更新最新的民調結果,好讓最後的推測盡量準確。

 

image

民調單位的成績單

 

整個過程中,最有趣的就是給每個民調單位發一張成績單。如果台灣有人能做類似的事不知道該有多好。Silver 給民調的誤差定義了一個公式:

 

Total Error = Sampling Error + Temporal Error + PIE

總誤差 = 抽樣誤差 + 即時性誤差 + 民調單位偏好引起的誤差。

抽樣誤差任何抽樣都會出現的誤差,抽樣數量越大,就能讓抽樣誤差降低。此誤差可用 sample size n 套入 binomial distribution 來推測。 Silver 給的公式是 80 * n^(-.5)。如果民調單位強到可以訪問到該地區每一個選民,那麼抽樣誤差就趨近於 0 。即時性誤差來自於民調做完後,選民可能會因為之後發生的事情而改變決定,因此產生了誤差, Temporal Error 在計算 PIE 時先假設為 0,等加權時再以 P 天舊的民調,時間加權為 0.5^(P/30) 處理。

 

最後 PIE 是 Pollster-Introduced Error ,也就是特定的民調單位因為其運作程序、習慣、和被理念主導而出現的誤差。以過去民調的準確性和平均民調準確性最後可求出 Long-run PIE (長時間民調單位偏好引起的誤差),而得到上面的民調單位成績單。數字越大的民調單位主觀造成的誤差越嚴重,該民調到最後加權也就越少。

 

 image

模擬後選舉人票的可能性分佈

image

這個圖和 fangraphs  的 WPA/LI 還滿像的……

 

image

這個圖和 Run Expectancy Table 與 Win Expectancy Table 也十分類似

 

上面的圖多少都看得出一些棒球分析的影響。尤其是上面的 Scenario Analysis 和 RE table 非常類似。棒球是一個 state machine,每局都有 24 個可能得分的情況。每個情況有不同的得分可能性,也產生不同的得分預期值。上圖則是算出 Obama 和 McCain 大選時可能發生的不同情況的可能性。並以此推算兩人可預期的選舉人票數,和 Win Percentage。

 

除了數據魔人偷渡到政治分析領域之外,美國總統大選也不免慣例的努力討好各隊球迷,把政治偷渡到棒球的十月盛事之中。Obama 是代表芝加哥的參議員,一開始不小心表示自己是白襪球迷,遭到芝加哥的小熊迷的不以為然。之後好在芝加哥國聯美聯球隊雙雙在 DS 中落馬,如重獲得自由的 Obama 就開始向季後賽中剩於各隊球迷討好。一直處於落後的 McCain 難得看到 Obama 表裡不一的表現,抓到機會就是一陣痛批。不過毫無原則的討好球迷本來就是是政治慣例, McCain 的副手 Sarah Palin 又很盡職的出來亂講話來暗算 McCain 囉……

McCain Palin… 你們兩位是都不互相溝通的嗎?

 

其實不論 2008 最後誰當選,上任後勢必都要面對全球經濟危機、美國兩地開戰、恐佈主義危機、伊朗核武危機、北韓核武危機、全球暖化危機、石化能源危機、全球糧食危機……等列舉不完的棘手問題。這種惡劣情況還跳出來參選的兩位候選人,如果不是樂觀過頭的瘋子,大概就只是一個瘋子。不過從上面這段影片也可以看出棒球對美國政治的重要性。不知台灣何時會有人把球迷當做一回事啊……

 


圖片來源:

FiveThirtyEight.com: Electoral Projections Done Right

 

相關連結:

FiveThirtyEight.com: Electoral Projections Done Right

News Week - Making His Pitches

arrow
arrow
    全站熱搜

    hansioux 發表在 痞客邦 留言(5) 人氣()