今年季前 A-Rod 可以說是衰到家。自從本來應該是秘密的藥檢結果被洩漏後,爆料、謠言、失去經典賽為多明尼加出賽的機會、甚至屁股都送廠維修,屋漏偏逢連夜雨中,夾了一陣叫 Selena Roberts 的冰雹。Roberts 出的新書「A-Rod: The Many Lives of Alex Rodriguez」中除了更擴大 A-Rod 的禁藥傳聞外,另指控 A-Rod 在游騎兵隊,當比數被拉開時會偷打投捕暗號給對方的二游打者,期望輪到自己打擊時對方會回報他的幫助。這種行為英文稱之為「Tipping」。淪喪在禁藥浪潮中還能說是時代和制度的產物,若 A-Rod 真有 Tipping 行為就很難推卸道德缺陷的責任了。

 

  依照 Roberts 的說法,A-Rod 和對手是在比數大幅度拉開後才靠 Tipping 幫助爭取個人成績。僅管這種行為大部份情況並不會傷害到球隊的戰績。不過卻傷害了隊上投手的成績、薪水、甚至球員生涯。不過 Roberts 書中儘是聽說而來的內容,倒底有幾分真相,還是單純想搭上棒球金童墜落的熱潮撈上一筆,在真相莫明之刻也難分辨。這時紐約時報卻挺身而出,為 A-Rod 的清白出聲。紐約時報的記者Dan Rosenheck 那麼有把握,難道掌握了新的內幕消息?

 

  其實他只是參考了 Tom Tango 的數據聖經「The Book」。Rosenheck 指出既然 Tipping 發生在比數懸殊的比賽,那麼依照 Tom Tango 的 Leverage Index(關鍵性指數)可以將有可能發生 Tipping 的打席與不可能發生 Tipping 的打席分開。

 

  LI 其實是個分析棒球賽中所有狀況的關鍵程度的表格。LI(關鍵性指數)的平均值為 1,常見的用法是大略將關鍵性分成三級。LI高於1.5時為高度關鍵情況。LI低於 0.7 為低度關鍵情況。而兩數據中的為中度關鍵情況。舉例說明,七局下半滿壘兩出局,主隊一分落後的情況下,該打席關鍵性指數是 5.9。這一打席屬於高度關鍵情況,此打席對戰局有極大影響。反之同樣是七局下半滿壘兩出局,但是主隊領先大於四分時,該打席關鍵性指數僅有 0.4。這一打席屬於低度關鍵情況,此打席對戰局有點不痛不癢。

 

  若 Tipping 的傳言屬實,那麼 A-Rod 和敵隊二游在 LI 低於 0.7 的時候打擊成績應該優於其它時候的表現。有人會問,直接找出分數差距懸殊的比賽,再看 A-Rod 的表現不就好了。何必那麼麻煩去學什麼關鍵性指數。合理的解釋是一場一場比賽去比較 A-Rod 平常和大分差比賽時表現的差別工程過於巨大。到 FanGraphsBaseball-Reference 上找算好的數據比較簡單。

 

  總之結論是 2001 到 2003 年 A-Rod 在游騎兵隊的時候,在非關鍵情況的打擊表現反而較關鍵情況差。完全顛覆了印象派對 A-Rod 關鍵時打不出來的評論。不但如此,交戰對手的二游打者一樣是反而在關鍵情況下表現較好。因此 Rosenheck 的結論是要不是傳言中的大分差 Tipping 為子虛烏有。不然就是 Tipping 對打者並沒有幫助。

 

  不過 LI 並不只發生在比數懸殊的時候才低於 0.7。比如一局上半,一人出局,壘上無人,兩隊平手的情況下 LI 只有 0.6。如果此時的數據也被算進去,就會減少發現 Tipping 的可能。為了排除這個問題 Rosenheck 甚至真的一場一場找出兩隊比分大於七分時,A-Rod 和對方二游的表現。最後結論仍然和 LI 的一樣。A-Rod 和對手二真的在關鍵時刻打得比較好。不過,還有更邪惡可能,那就是 Tipping 根本不是在大分差時發生,而是故意在關鍵時刻幫助對方贏球。

 

  若是如此,那麼這類的數據分析是否也能拿來偵測可疑的球賽呢?要做到這點之前先了解簽賭的性質。大部份人的觀念是,放水就是球員故意輸球而已。在這種模式下,高 LI 的情況下涉嫌放水的打者下會系統性的打得比平均值差、投手會系統性的較容易被打出安打,或送出保送、守備會較平常容易出現失誤。幕後操盤的人再神通廣大通常也有固定配合的班底。而要求球員一定要輸遠比一定要贏來得容易。

 

  但是牽賭並不是輸贏那麼簡單。當遊戲方式是讓分、勝分差、大小、甚至完全猜中比數時,既有的棒球數據都是為贏球而設計,就顯得無能為力了。因為輸贏不再是關鍵。而真正的關鍵反而是由幕後黑手與球員決定。如果今天要簽的是讓 3.5 分,整個 LI 表也要跟著向左橫移 4 分。因為無法掌握幕後黑手設定的分數,想要用新的數據來揪出可疑的比賽仍是不可能的事。

 

  也許哪個讀統計的碩博生可以拿這個當題目,朝這個方向繼續研究。若能將所有中職比賽過程建立像 fangraphs 一樣的資料庫,再將目前確定是放水的比賽和平均值跑跑回歸。看是否有目前不知的其它關聯性。說不定有朝一日出現疑似放水的情況時,會有電腦自動送出通報給檢方呢。

 


 

相關連結:

ShysterBall - Statistics tell more truths than Selena Roberts

New York Times - Did Tipping Pitches Help Rodriguez and Others? Numbers Say No

台灣棒球維基館 - Leverage Index

Inside The Book - LI 表

自由時報 - 吳健保3場放水球 1場淨賺數千萬

創作者介紹

竹板凳的漁瘟

hansioux 發表在 痞客邦 PIXNET 留言(5) 人氣()


留言列表 (5)

發表留言
  • lucino
  • 放水不是這樣啦

    老實說,會寫這種論文的人就是不懂簽賭及放水的人。放水的重要條件是【賭盤讓分】以及【比賽後段】。例如統一讓LaNew兩分,打到第八局6:4,此時LaNew投手突然保送爆投,或是防守球員配合演出失誤造成7:4,這就是有放水嫌疑。反之若比數原來是8:4,此時統一較有放水嫌疑,LaNew比較沒有。

    好像我應該開一篇來討論職棒放水 ^_^
  • 為什麼我有種你沒把整篇看完的感覺?

    hansioux 於 2009/05/20 14:07 回覆

  • Dorasaga
  • 說到Miss Roberts and Rodriguez...

    這裡有篇指出Roberts誤用證據製造偏見的假新聞模式(<--我的讀解):

    http://joeposnanski.com/JoeBlog/2009/05/12/evil-and-boras/

    至於模擬來"發現"簽賭的時機呀... Leverage Index我雖然也有從"The Book"中讀到,卻不清楚是否採用MLB過去數年來的數字來建立那"index"的模型?

    如果是的話,轉換到CPBL還得另外建立一套index...
  • 我覺得 RE, WE, 和 LI 三個數據,除了 WE 之外,其實都可以直接轉到其它棒球聯盟使用。原因是 RE 與 LI 都是「理論上」的數據。以 RE 來說,Tom Tango 當初設計時並沒有專為大聯盟設計,而是有 RE by Run Environment。

    http://spreadsheets.google.com/pub?key=pkimQBCeCjbjIgxJ9vKvJSQ

    大聯盟的 Run Environment RPG (Runs Per Game) 好像是 4.5。如果要轉移到台灣來,其實只要拿實戰歷史算出 RPG 即可。其實並不是什麼大工程。

    至於 WE ,目前只有 WE Finder 是使用真實大聯盟數據來計算的。Tom Tango 的 WE 本身雖然是理論數據,但是 Tom Tango 本身說:

    The win expectancy model is extremely simple to model. It needs the frequency of all possible events at every state, and it needs to know all the possible places the batters/runners end up following the event.

    加上

    Anything that has ever happened on a baseball field from 1999-2002 is considered, and weighted, by the frequency in which it occurred.

    也就是說大部份網路上「理論」的 WE,每個 state 發生的頻率是從 1999~2002 年的數據中來的。也就是為什麼 WE 可能到台灣來要重新算過。

    至於 LI 是說每個情況對比賽勝負影響的重要性。最高的 LI 值 10.9 出現在 9 局下半,滿壘兩出局,主場落後一分。我想只要是真正的「棒球」而不是什麼十二局可以把兩個人放在壘包上的「鳥球」,結論都是一樣的。

    hansioux 於 2009/05/21 03:09 回覆

  • Dorasaga
  • 喔喔喔! thanks for the reference~

    LI的關鍵字看來是"frequency"呀...

    其實我應該在想WE, 而不是LI... 事實上, The Book裡面並沒有講LI呀! (正在翻, 找不到...) Li *搞不好不是Tango發明的, 所以不寫? @@

    WE的話, "weight"很重要. 我最近也在想怎麼把FIP (才是格主喜歡叫DIPS?) 轉到NPB上面. DIPS那個"+3.2"在NPB毫不適用!

    最近在等人把Fielding Bible II從米國帶回來, 我想讀了之後再來考慮FIP (有許多共通的靈感!)


    *Lithium? XD

    **對了, 這篇的驗證碼是"keMLB", 是啟示嗎?XXD
  • 哈,可惜不是 koMLB。

    DIP 或是 FIP 公式都是完全不知道常數是哪來的那種……大概都是跑迴歸出來的把。

    WE 是用接下來會發生什麼情況的 frequency。但是它理論的所在是假設了比賽一開始兩隊勝出機率是相同的。也就是第一局第一個打席上去的時候,把接下來所有可能發生的機率加一加,勝出可能性是 .500。用真實數據的 WE Finder 的話,開賽時主場勝率比較高,證明 MLB 有主場優勢這種東西。

    RE 其實和 WE 很類似,不過有 RPG 可以轉換,感覺起來比較不像專為 MLB 設計的數據。

    LI 的話大概是 The Book 出版之後才出現的東西吧。它應該是為了正常化 WPA 而產生的數據?

    hansioux 於 2009/05/21 17:17 回覆

  • lucino
  • 親愛的版主,我有看完全篇,我又再看了一次,我應該這麼說,我不是否定LI的算法,而是LI除了要向左向右移動之外,另外還只能以7局之後的表現作為基數。

    近年的一些放水人物我沒有接觸不敢說,以1996年龍獅冠軍賽第4場(http://online.cpbl.com.tw/GResult/Result.aspx?Gameno=03&pbyear=1996&game=4#)而言,場外開獅隊讓3分,在8下2出局無人在壘比數還是0:2,此時黃x博連續兩個保送,連續兩個暴投,比數變成0:4。

    黃x博的LI我想在7局後很難計算,因為他投到7局都是沒力的狀況,表現自然差。但是在這種情況下,是非常明顯的放水。

    當有機會贏球而且球隊想要贏球的時候,領先隊的球員不見得會配合放水,但有機會輸球然後分數差一點的時候,落後隊的球員很可能會放水讓「讓分」更準。這也是為什麼最近幾年戴x水明明防禦率很漂亮,但是仍有很高嫌疑的主因。
  • 我是覺得看單場比賽就要下結論有沒有放水是主觀的。今天如果賭盤都是賭輸贏,我相信用 LI 可以看出誰有「系統性」出現類似放水的表現。結論也會比較客觀一點。

    至於 LI 不是算一個人的數據,僅是比賽狀況的關鍵性。而球員在關鍵性與非關鍵性之間表現差距,理論上長久下來是沒有差別的。每年 clutchness 的變化十分大。也就是說理論上沒有明顯的clutchness。

    因此當高LI狀況與低LI狀況出現系統性差別的時候就是比較可疑的比賽。可惜賭盤不只是賭輸贏。所以目前還需要其它的研究才能做出比較。底下以你舉的例子,已知開出主隊讓三分(不清楚是 2.5 還是 3.5,底下以 3.5 為例)。

    由於當年的電子記錄過於簡陋,不像日職文字報導可以看出各局對戰的結果,我也無法完整的檢驗該場比賽。不過就你的回憶而言,黃文博六局下就上場,當時黃平洋有留人在壘上。但是黃文博該局並沒有失分。七局下再上場時兩隊平手。當時的 LI 是 1.5。因為被陳政賢打了全壘打才在七局下失兩局。因此八局下再上場時,主隊領先兩分。當時的 LI 是 0.3。

    但是賭盤開的是主隊贏四分。因此把整個表向右移四格,且稱這個新的表為 LI* 。七局下黃文博上場時 LI* 變成只有 0.8。但八局下再上場時,主隊領先兩分, LI* 就變成 1.8 了。也就是說越靠近主隊贏四分時情況越關鍵。和贏不贏球已經無關了。獅隊得到第四分那個打席,LI* 會在 4 以上。如果有當年完整的比賽經過應該會更清楚。

    最後,就算保證了自己隊上的投手會丟分,如果隊上打者不配合放水,得個一兩分回來,最也無法保證能做到讓 3 分……

    hansioux 於 2009/05/21 23:32 回覆

  • 悄悄話
找更多相關文章與討論