[筆記] 統計學的世界« Opass's Blog | 統計學二筆記

這本書的重點著重在統計的基礎常識,注意在這裡我用的詞是常識而不是觀念,​雖然這兩 ... 公式,這本書不教統計學的計算方法,數學也用的很淺,對於公式的原理通常都快. ... 百分之(68-95-99.7)的資料會落在距離平均數(1-2-3)個標準差的範圍內.over5yearsago[筆記]統計學的世界這本書的重點著重在統計的基礎常識,注意在這裡我用的詞是常識而不是觀念,雖然這兩者常常是比鄰而居的,但是比起學習如何套用數學公式,這本書不教統計學的計算方法,數學也用的很淺,對於公式的原理通常都快速略過(一位作者的厲害之處往往在他願意捨棄多少內容,而不是他放入多少東西),但他教的是當我們需要把統計學應用到生活上時,該如何系統化的思考該注意哪些部份。

本書關注四個重點,數據如何產生,如何分析資料、用機率思考、統計推論。

一數據從何而來母體:就是你想知道的對象的全體。

樣本:就是母體的一部份。

我們從樣本蒐集資訊,對母體做出結論。

個體(individual):一組數據描述的對象,可能是人、動物、其他東西變數(variable):個體的特質,不同的個體可能有不同的特質,像是人的性別、年齡觀測研究:只在不干擾的情況下蒐集資訊實驗:對個體進行某些處理,研究是否特定處理會導致反應改變,實驗最棒的好處是可以作為因果關係的證據。

二好樣本壞樣本你有很多方法可以取得爛樣本,像是使用方便抽樣,例如你要判斷一箱橘子裡頭有多少爛掉,只打開箱子抽取表面的橘子。

或是在站在西門町做民意調查,只挑選那些看起來面對微笑無害的阿宅做訪問。

或是使用自發性回應樣本,例如報紙或電視節目,讓觀眾自己打電話進來,那麼多半是對該議題有強烈立場的人才會採取行動。

最公正的樣本是使用簡單隨機樣本(SimpleRandomSample,SRS),幫每個母體編號,用隨機的方式挑選個體作為樣本。

你可以用電腦或是隨機亂數表做抽樣。

三樣本告訴我們什麼?首先要知道的是,樣本絕對沒有辦法告訴我們有關母體的確實資訊,但我們會利用樣本的事實,當作母體真實訊息的估計。

我們會用參數和統計量這兩個詞彙。

參數(parameter):描述母體的數字,參數是一個固定的值,但是我們實際上並沒辦法知道。

統計量(statistic):描述樣本的數字,一旦取得了樣本就可以計算出來,但是換個樣本,統計量的值就可能會改變。

我們常用統計量來估計參數。

另外,我們要定義兩個詞,一個是偏差,另一個是變異性。

偏差(bias):當我們取很多樣本時,統計量一直朝同一個方向偏離母體的參數值。

變異性(variability):當我們取很多樣本時,統計量的值會散開到什麼程度。

變異性大就代表不同樣本的結果可能差別很大,一個好的抽樣方法應該要有小偏差和小變異性。

隨機抽樣的好處是能夠消除偏差,另外,使用大樣本可以降低變異性。

信賴敘述包含了誤差界限(marginoferror)和信賴水準(levelofconfidence),像是我們有95%信心,在所有成年人當中,有54~60%曾在過去12月裡買過彩券。

因為統計量會有變異性,所以我們會用誤差界限來描述統計量和實際的值可能會差多少。

95%的信心的誤差界限大約是1/sqrt(n),因此如果需要把誤差界線減半,需要使用四倍大的樣本。

使用隨機樣本所得到的統計量的變異性並不受母體大小影響,只要母體至少比樣本大100倍就好。

另外樣本的統計量的變異性是由樣本大決定,而不是由母體大小決定。

這對於小型研究團隊來說不是好消息,因為不管你是要對全台灣的民眾還是對全校的學生做統計,只要你要求同樣的誤差界限,就要使用同樣大的SRS。

四真實世界的抽樣調查真實世界中,簡單隨機抽樣不一定簡單,也不一定隨機。

誤差有分兩種,一種是抽樣誤差,另一種是非抽樣誤差。

抽樣誤差來自於抽樣本身的隨機性(可以夠過加大樣本降低),還有抽樣方法出問題。

像是樣本涵蓋不全,母體當中的某些部份根本未被納入選擇範圍,像是有些學生住在宿舍沒有室內電話,那麼做電話抽查就打不到這些學生上。

非抽樣誤差包括了處理誤差(研究員keyin資料錯誤)、回應誤差,受訪者可能會給與不正確的回答。

有時候是受訪者刻意的,或是不自覺的。

像是大家可能會謊報收入、學歷、或是記憶模糊導


常見投資理財問答


延伸文章資訊