中央極限定理(Central Limit Theorem , CLT) | 中央極限定理舉例

中央極限定理是指,從任何母體隨機抽取大量獨立的隨機變數,其平均值會趨近於常態分佈。

提到常態分佈,讀者興許就明白為何該定理如此重要了。

無論原始母體 ...Signin啟發式演算法網路爬蟲推薦系統統計分析文字探勘網路分析中央極限定理(CentralLimitTheorem,CLT)邱秉誠FollowFeb27·4minread中央極限定理是指,從任何母體隨機抽取大量獨立的隨機變數,其平均值會趨近於常態分佈。

提到常態分佈,讀者興許就明白為何該定理如此重要了。

無論原始母體為何,當樣本數夠大,樣本平均數就會趨於常態分佈,便可以運用統計手法來驗證宣稱的樣本平均值是否合理,進一步幫助我們完成假設檢定的一系列流程。

請參考假設檢定基礎觀念。

公式假設母體的平均值為μ,變異數為σ²,從母體抽取隨機變數x1,x2,x3..xn,這n個隨機變數的平均值(以X_bar表示)會服從常態分配。

一般而言,在針對常態分佈的假設檢定,我們都會將原始分數標準化,作法為將x減去母體平均μ,再將兩者的差除以母體標準差σ。

以標準差做為單位來衡量原始分數與母體的真實距離,又稱為z-score。

這裡要注意的是,上述的z-score是原始的隨機亂數,但是如今是樣本的平均值X_bar服從常態分佈,因此我們分別推導X_bar的期望值與變異數。

X_bar的期望值估計式的期望值等於母體參數,因此是不偏估計(unbiasedestimator)。

X_bar的變異數經過上述推導,明白X_bar會服從母體平均值為μ、母體標準差為σ/√n的常態分佈。

因此z-score重新表示如下:模擬用隨機亂數的樣本平均值檢測分布的情形。

我們先隨意產生μ為10、σ為5的高斯隨機變數作為母體,每次抽取10個樣本並計算平均值作為一個觀察值,如此抽取1000次,繪製成下方左上角的第一張圖,接著讓我們來試試看使用不同樣本大小,用以下程式依序使用[10,50,100,200]作為抽取的樣本大小並計算樣本平均值,如此各自抽取1000次,最後使用seanborn的displot繪製圖形。

可以發現隨著樣本大小的增加,樣本平均越趨近於常態分布,並且變異數會越小,這是源於上述推導樣本平均數的標準差為σ/√n。

在不同樣本大小,其樣本平均值的機率分佈舉例用中央極限定理的觀念來進行假設檢定。

假設乘客等候公車時間平均為8.5分鐘,標準差為3.5分鐘。

假設今天隨機抽取49位乘客,平均候車的時間少於10鐘內的機率為何?從題意上我們不知道真實乘客等候公車的時間是來自於何者分佈,但是由於今天抽取的樣本數目夠大(一般而言,樣本數量需要>=30),因此我們知道樣本的平均值會趨近常態分佈,將樣本平均值標準化,求得z-score如下:z-score為3,意味10分鐘是樣本平均距離母體有三倍標準差,透過查表就可以得知Z-score小於3倍標準差的面積為0.9987,表示平均候車的時間少於10鐘內的機率為0.9987。

小結中央極限定理是指,從任何母體隨機抽取大量獨立的隨機變數,其平均值會趨近於常態分佈,當樣本數目夠大,越趨近於常態分佈,且變異數會越小。

邱秉誠資料科學札記從事數據分析的心得札記FollowCentralLimitTheoremStatisticsNormalDistributionPopulationHypothesisTesting351 claps351Writtenby邱秉誠Follow台科工業管理學士。

台大工業工程碩士。

學習數據分析及網站開發。

Follow邱秉誠資料科學札記Follow從事數據分析的心得札記FollowWrittenby邱秉誠Follow台科工業管理學士。

台大工業工程碩士。

學習數據分析及網站開發。

邱秉誠資料科學札記Follow從事數據分析的心得札記MoreFromMedium如何計算型一錯誤(TypeIError)、型二錯誤(TypeIIError)的機率。

邱秉誠in邱秉誠資料科學札記簡單線性回歸的顯著性檢定(Significancetest)邱秉誠in邱秉誠資料科學札記以VBA自動繪製統計製程管制圖(SPCControlChart)邱秉誠in邱秉誠資料科學札記回歸分析(Regressionanalysis)的R平方(Rsquared)與調整後R平方(AdjustedRsquared)邱秉誠in邱秉誠資料科學


常見投資理財問答


延伸文章資訊