貝氏統計:原理與應用 | 貝氏統計

貝氏統計的核心是貝氏估計,而貝氏估計靠得是馬可夫鏈(MC)蒙地卡羅(MC)演算,少則幾萬步、多則上百萬,而且MCMC走的步數叫做隨「機」漫步,如果「機 ...邱皓政(2020/09)貝氏統計:原理與應用。

雙葉書廊。

回首頁自序學習貝氏統計最重要的兩件事,第一是要有一顆能夠聰明思考的頭腦,第二是要有一臺跑得很快的電腦,當你清楚知道自己要的是什麼之後,勤快的電腦就能替你創造出答案。

聰明如你馬上就會反駁我,絕大多數的統計分析不都是一樣嗎,不是都先要把變數定義清楚,統計模型設定好,有了觀察資料之後,寫好語法,按下執行,就可以得到報表寫報告。

除了電腦不需要很好之外,樣本數不要多得離譜,一般的統計軟體都能跑,貝氏統計需要的兩個腦,哪裡不同?先講電腦吧。

貝氏統計的核心是貝氏估計,而貝氏估計靠得是馬可夫鏈(MC)蒙地卡羅(MC)演算,少則幾萬步、多則上百萬,而且MCMC走的步數叫做隨「機」漫步,如果「機」率分配不尋常,參數數量又不少,如果沒有多幾顆CPU,多幾排RAM,電腦再勤快也跑不了,一般統計軟體根本不能這麼操。

再說聰明腦。

二百五十年前ThomasBayes發現機率可以翻來覆去(稱為逆機率),過世後論文手稿才被發現,好友替他投稿刊登後不得了,引發數百年頻率學派與貝氏學派之間的紛紛擾擾,幾乎所有的統計大師(例如RonaldFisher、KarlPearson、JerzyNeyman、CharlesSpearman)都曾潦下去吵……,注意喔!我所說的聰明腦並不是要用來「鬥嘴鼓」,而是要能像這兩派人馬那麼清楚明白自己在吵什麼。

兩方陣營立場都堅定,用詞很深奧,一邊服膺中央極限定理,堅信大數法則,認為機率要從手中的資料來計算才「客觀」,而且觀察愈多愈客觀,機率愈能逼近真相,最後得到的「最大概似值」就是「唯一」的最佳答案;另一邊就數落這種客觀就是名符其實的「主觀」,是所有可能當中的特例,因為所有的機率都有條件,所有的觀察都有脈絡,先驗存在的脈絡決定參數散佈的空間,參數是機率分配而「非唯一」,機率運算要先定義脈絡,經過貝氏運算得到後驗分配,才是參數的真相。

由於整個二十世紀中,實證主義是主流,頻率統計口中的「最大概似估計」明確易找容易懂,常佔上風,貝氏學派堅信「參數是隨機變數」的陳義過高,不易求證無從觀察難想像,因此飽受攻擊。

但有趣的是,隨著研究者的野心愈來愈大,模型愈來愈複雜,最大概似值愈來愈難估計,頻率學派開始動搖,相反的,當電腦愈來愈進步,演算法愈來愈成熟,貝氏信念下的參數空間在MCMC一步一腳印的軌跡當中完完整整的「被看到」,先驗脈絡的效應可以真真實實的「被檢驗」,於是士氣大振,宣揚貝氏革命已經展開……前面這些故事的細節與專有名詞在本書當中都會逐一說明,如果讀不明白不用心急,更不用懷疑自己沒有那顆聰明腦,只要耐著性子,按部就班,詳讀原理,反覆演練,貝氏統計自然就能掌握,至於電腦好不好倒是值得煩惱。

更重要的是,從本書的演示範例與實際研究所得到的結果,都可發現其實兩派觀點在多數情況下的結果相近,結論相同,其實不用玩零和遊戲鬧革命。

哪一種估計方法比較簡單有效、哪一種分析策略能夠更接近事實,這種討論與選擇才是務實之道。

但問題是,除了要熟悉貝氏原理與技術(第1至6章),還要熟悉迴歸分析、變異數分析、多層次模式、因素分析、結構方程模式、成長模式、潛在結構分析與混合模式這些統計模型,才能套用貝氏方法、展現MCMC的功力,這些統計模式的學習才是最沉重的負擔,從第7章開始將逐一介紹,踏實走完每一章,配合演練,就會貝氏。

這本貝氏統計算是相當進階的統計專書,要能面對需要勇氣,能夠堅持更需毅力,但學會之後必有大用,成就指日可待。

我自己的學位養成過程從未學習貝氏,擔任教職後也少有接觸,書中超過二十萬字寫作經歷千百小時,閱讀大量文獻專書,執行無數模擬分析,反覆確認分析結果,最後終於完稿,著實辛苦,但是值得,除了可以填補華文世界所欠缺的一本貝氏專書,其實還了卻一個心願。

多年前,在一個演講場合結束後,一位學生求助於我,劈頭就先問了一句,「老師,您會貝氏嗎?」因為他的模型遇到問題,估不出來,聽說可以用貝氏估計來解決,問我會不會。

當時的我尚未涉獵貝氏方法,技術也不成熟,軟體更不好用,於是提醒他更換估計法未必能夠解決問題,先要正本清源再說。

學生得不到想要的答案,道了謝就失望離開。

從那一刻起,那一句「老師,您會貝氏嗎?」,不斷在我耳邊纏繞,魂牽夢縈,直到本書完稿的現在,終於得到一絲解脫。<


常見投資理財問答


延伸文章資訊