統計學 概念延伸文章資訊,搜尋引擎最佳文章推薦

1. 統計學的基本概念

統計學的基本概念. 我以前在大學修過機率,在研究所上過兩次統計學,雖然考試都還可以過關,但是可能因為沒有實際去運用,因此有一些統計的 ...2008年6月19日星期四統計學的基本概念我以前在大學修過機率,在研究所上過兩次統計學,雖然考試都還可以過關,但是可能因為沒有實際去運用,因此有一些統計的基本觀念並不是真的很清楚。

這一年來修計量經濟學、研究方法、而且實際參與老師的研究計畫,接觸統計的機會增多,希望藉此機會慢慢將以前沒有融會貫通的統計概念釐出一個比較清楚的面貌。

敘述統計依照目的與功用的不同,統計學可以分為兩大類,一類稱為「敘述統計」(descriptivestatistics),另一類稱為「推論統計」(inferentialstatistics)。

敘述統計主要在幫助我們從一堆看似零亂的數字中整理出其中的型態、意義,讓我們對這些數字掌握其重點並能夠加以描述,將資料轉變為情報。

最常用的敘述統計值(statistic)有平均值、極大/極小值、範圍、中間值(median)、標準差(standarddeviation)等。

我們也經常用圖形來呈現一組數字的形態或關係,比如這組數字出現頻率的分布圖(distribution)是統計最常使用的概念與方法。

在各種機率分布圖中,常態分布(normaldistribution)是最基本也是最常見的一個,比如在一個60個人的班級裡,學生的身高通常會呈現常態分布的情況,也就是非常高與非常矮的學生人數會很少,越接近平均身高的學生人數會越多。

常態機率分布是一個鐘型的對稱圖型,對稱的中間點是此組數值的平均值μ,而該組數值的標準差σ決定其分布廣度,σ越大,分布圖型就越廣。

一個常態分布就是由μ及σ所決定的,而在μ±1σ之間的範圍佔整個圖型面積的67%,在μ±2σ之間的範圍約是95%,在μ±3σ之間的範圍約是99%,也就是:此組數字落在μ±1σ之間的值的個數佔總數的67%,落在μ±2σ之間的值的個數佔總數的95%,落在μ±3σ之間的值的個數佔總數的99%。

因此當我們從整組數據中抽到在介於μ±1σ之間的值的機會(機率)是67%;抽到μ±3σ之外的值的機率只有1%,也代表μ±3σ之外的值的發生機率只有1%。

常態機率分布不僅對敘述統計很重要,它也是推論統計的基礎。

推論統計推論統計基本出發點是要透過有限的樣本(sample)的資料讓我們去推論母體(population)的狀況。

母體就是我們所關切的現象或問題所涉及到的所有對象,不過有時候母體數目太多,或者因為資料欠缺,我們只能從中選擇具有代表性的一部分做為研究的sample來探討,希望藉此讓我們間接對population的狀況有所了解。

比如有一個老師出了一個作業,要學生在一天內找出今天花蓮縣所有家戶的平均子女數,可是不能直接去問戶政事務所,照理說學生應該要挨家挨戶去問,收集所有家戶的子女人數,加總之後再除以花蓮縣的總戶數,求得每戶的平均子女數。

不過這件工作不可能在一天內完成,學生只好退而求其次,用隨機抽樣取得的樣本來做估算或推論。

在這個例子中,全縣家戶(母體)的每戶子女數平均值是母體的一個特徵值或參數(parameter),由樣本所計算得到的每戶平均子女數是該參數的統計值(statistic)。

假設老師知道花蓮縣所有家戶的平均子女數是2人,但是事實上學生們並不知道這個數字。

於是學生用隨機抽樣的方式,取得10個家戶的子女數資料,假設是以下的數字:1223012420這個樣本的樣本數N為10,平均值μ是1.7,標準差σ是1.25。

由於每一個樣本都可能有取樣上的偏差,因此根據一個樣本所得到的估算值有可能很不準確(與母體的參數值差距很大),所以我們重複上面的取樣方式15次,共取得15個樣本(每個樣本都有10個數字),計算得到15個平均值(μ1-μ15)與15個標準差(σ1-σ15)。

假設這15個樣本的平均值(每戶平均子女數)分別是:1.72.11.52.51.92.02.61.91.82.21.72.32.02.21.8這個由樣本的統計值所構成的數字組合在統計學上非常重要,它們所形成的機率分布稱為「取樣分布」(samplingdistribution),統計學家已經證明,取樣分布是一個常態分配,而且當取樣進行的次數愈多,這些統計值的平均值(此取樣常態分布的中點)會愈接近母體參數值。

此外,取樣分布的標準差被稱為標準誤差(standarderror,用s代表,意義是用這



2. 資料分析中常用的五個統計學基本概念,你懂幾個?

特徵統計可能是資料科學中最常用的統計學概念。

它是你在研究資料集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。

3資料分析中常用的五個統計學基本概念,你懂幾個?資料分析groots2020-03-0920:30:06‧852瀏覽在回答資料分析入門要具備什麼樣的能力的問題中,我經常提到統計學知識,統計學是一種利用數學理論來進行資料分析的技術,通過統計學我們可以用更富有資訊驅動力和針對性的方式對資料進行操作。

在資料分析工作中,利用統計學,我們可以更深入、更細緻地觀察資料是如何進行精確組織的,並且基於這種組織結構確定資料分析的方法,來獲取更多的資訊。

今天給大家介紹資料分析中常用的五個統計基本概念。

特徵統計特徵統計可能是資料科學中最常用的統計學概念。

它是你在研究資料集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。

理解特徵統計並且在程式碼中實現都是非常容易的。

請看下圖:上圖中,中間的直線表示資料的中位數。

中位數用在平均值上,因為它對異常值更具有魯棒性。

第一個四分位數本質上是第二十五百分位數,即資料中的25%要低於該值。

第三個四分位數是第七十五百分位數,即資料中的75%要低於該值。

而最大值和最小值表示該資料範圍的上下兩端。

箱形圖很好地說明了基本統計特徵的作用:當箱形圖很短時,就意味著很多資料點是相似的,因為很多值是在一個很小的範圍內分佈;當箱形圖較高時,就意味著大部分的資料點之間的差異很大,因為這些值分佈的很廣;如果中位數接近了底部,那麼大部分的資料具有較低的值。

如果中位數比較接近頂部,那麼大多數的資料具有更高的值。

基本上,如果中位線不在框的中間,那麼就表明了是偏斜資料;如果框上下兩邊的線很長表示資料具有很高的標準偏差和方差,意味著這些值被分散了,並且變化非常大。

如果在框的一邊有長線,另一邊的不長,那麼資料可能只在一個方向上變化很大概率分佈我們可以將概率定義為一些事件將要發生的可能性大小,以百分數來表示。

在資料科學領域中,這通常被量化到0到1的區間範圍內,其中0表示事件確定不會發生,而1表示事件確定會發生。

那麼,概率分佈就是表示所有可能值出現的機率的函數。

請看下圖:常見的概率分佈,均勻分佈(上)、正態分佈(中間)、泊松分佈(下):均勻分佈是其中最基本的概率分佈方式。

它有一個只出現在一定範圍內的值,而在該範圍之外的都是0。

我們也可以把它考慮為是一個具有兩個分類的變數:0或另一個值。

分類變數可能具有除0之外的多個值,但我們仍然可以將其視覺化為多個均勻分佈的分段函數正態分佈,通常也稱為高斯分佈,具體是由它的平均值和標準偏差來定義的。

平均值是在空間上來回變化位置進行分佈的,而標準偏差控制著它的分佈擴散範圍。

與其它的分佈方式的主要區別在於,在所有方向上標準偏差是相同的。

因此,通過高斯分佈,我們知道資料集的平均值以及資料的擴散分佈,即它在比較廣的範圍上擴充套件,還是主要圍繞在少數幾個值附近集中分佈。

泊松分佈與正態分佈相似,但存在偏斜率。

象正態分佈一樣,在偏斜度值較低的情況下,泊松分佈在各個方向上具有相對均勻的擴散。

但是,當偏斜度值非常大的時候,我們的資料在不同方向上的擴散將會是不同的。

在一個方向上,資料的擴散程度非常高,而在另一個方向上,擴散的程度則非常低。

如果遇到一個高斯分佈,那麼我們知道有很多演算法,在預設情況下高思分佈將會被執行地很好,因此首先應該找到那些演算法。

如果是泊松分佈,我們必須要特別謹慎,選擇一個在空間擴充套件上對變化要有很好魯棒性的演算法。

降維降維這個術語可以很直觀的理解,意思是降低一個數據集的維數。

在資料科學中,這是特徵變數的數量。

請看下圖:上圖中的立方體表示我們的資料集,它有3個維度,總共1000個點。

以現在的計算能力,計算1000個點很容易,但如果更大的規模,就會遇到麻煩了。

然而,僅僅從二維的角度來看我們的資料,比如從立方體一側的角度,可以看到劃分所有的顏色是很容易的。

通過降維,我們將3D資料展現到2D平面上,這有效地把我們需要計算的點的數量減少到100個,大大節省了計算量。

另一種方式是我們可以



常見投資理財問答


延伸文章資訊