資料分析中常用的五個統計學基本概念,你懂幾個? | 統計學 概念

特徵統計可能是資料科學中最常用的統計學概念。

它是你在研究資料集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。

3資料分析中常用的五個統計學基本概念,你懂幾個?資料分析groots2020-03-0920:30:06‧852瀏覽在回答資料分析入門要具備什麼樣的能力的問題中,我經常提到統計學知識,統計學是一種利用數學理論來進行資料分析的技術,通過統計學我們可以用更富有資訊驅動力和針對性的方式對資料進行操作。

在資料分析工作中,利用統計學,我們可以更深入、更細緻地觀察資料是如何進行精確組織的,並且基於這種組織結構確定資料分析的方法,來獲取更多的資訊。

今天給大家介紹資料分析中常用的五個統計基本概念。

特徵統計特徵統計可能是資料科學中最常用的統計學概念。

它是你在研究資料集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。

理解特徵統計並且在程式碼中實現都是非常容易的。

請看下圖:上圖中,中間的直線表示資料的中位數。

中位數用在平均值上,因為它對異常值更具有魯棒性。

第一個四分位數本質上是第二十五百分位數,即資料中的25%要低於該值。

第三個四分位數是第七十五百分位數,即資料中的75%要低於該值。

而最大值和最小值表示該資料範圍的上下兩端。

箱形圖很好地說明了基本統計特徵的作用:當箱形圖很短時,就意味著很多資料點是相似的,因為很多值是在一個很小的範圍內分佈;當箱形圖較高時,就意味著大部分的資料點之間的差異很大,因為這些值分佈的很廣;如果中位數接近了底部,那麼大部分的資料具有較低的值。

如果中位數比較接近頂部,那麼大多數的資料具有更高的值。

基本上,如果中位線不在框的中間,那麼就表明了是偏斜資料;如果框上下兩邊的線很長表示資料具有很高的標準偏差和方差,意味著這些值被分散了,並且變化非常大。

如果在框的一邊有長線,另一邊的不長,那麼資料可能只在一個方向上變化很大概率分佈我們可以將概率定義為一些事件將要發生的可能性大小,以百分數來表示。

在資料科學領域中,這通常被量化到0到1的區間範圍內,其中0表示事件確定不會發生,而1表示事件確定會發生。

那麼,概率分佈就是表示所有可能值出現的機率的函數。

請看下圖:常見的概率分佈,均勻分佈(上)、正態分佈(中間)、泊松分佈(下):均勻分佈是其中最基本的概率分佈方式。

它有一個只出現在一定範圍內的值,而在該範圍之外的都是0。

我們也可以把它考慮為是一個具有兩個分類的變數:0或另一個值。

分類變數可能具有除0之外的多個值,但我們仍然可以將其視覺化為多個均勻分佈的分段函數正態分佈,通常也稱為高斯分佈,具體是由它的平均值和標準偏差來定義的。

平均值是在空間上來回變化位置進行分佈的,而標準偏差控制著它的分佈擴散範圍。

與其它的分佈方式的主要區別在於,在所有方向上標準偏差是相同的。

因此,通過高斯分佈,我們知道資料集的平均值以及資料的擴散分佈,即它在比較廣的範圍上擴充套件,還是主要圍繞在少數幾個值附近集中分佈。

泊松分佈與正態分佈相似,但存在偏斜率。

象正態分佈一樣,在偏斜度值較低的情況下,泊松分佈在各個方向上具有相對均勻的擴散。

但是,當偏斜度值非常大的時候,我們的資料在不同方向上的擴散將會是不同的。

在一個方向上,資料的擴散程度非常高,而在另一個方向上,擴散的程度則非常低。

如果遇到一個高斯分佈,那麼我們知道有很多演算法,在預設情況下高思分佈將會被執行地很好,因此首先應該找到那些演算法。

如果是泊松分佈,我們必須要特別謹慎,選擇一個在空間擴充套件上對變化要有很好魯棒性的演算法。

降維降維這個術語可以很直觀的理解,意思是降低一個數據集的維數。

在資料科學中,這是特徵變數的數量。

請看下圖:上圖中的立方體表示我們的資料集,它有3個維度,總共1000個點。

以現在的計算能力,計算1000個點很容易,但如果更大的規模,就會遇到麻煩了。

然而,僅僅從二維的角度來看我們的資料,比如從立方體一側的角度,可以看到劃分所有的顏色是很容易的。

通過降維,我們將3D資料展現到2D平面上,這有效地把我們需要計算的點的數量減少到100個,大大節省了計算量。

另一種方式是我們可以


常見投資理財問答


延伸文章資訊