從零進階!數據分析的統計基礎(第2版) | 被動收入的投資秘訣 - 2024年6月

從零進階!數據分析的統計基礎(第2版)

作者:經管之家
出版社:電子工業
出版日期:2016年05月01日
ISBN:9787121285004
語言:繁體中文

共 6 章,分別講解了數據分析的步驟和方法、描述性統計分析、抽樣估計、假設檢驗、方差分析、 相關與回歸分析,使用簡單的語言介紹了這些數據分析基本方法的核心思想和涉及的統計學、概率論等方面 的理論內容,並使用圖示的方法詳細介紹了使用 Excel 2013 進行簡單的描述性統計分析和使用 SPSS 進行相 關的數據分析的過程與結果分析。



經管之家:原人大經濟論壇,於2003年成立,致力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內最 大的經濟、管理、金融、統計類的在線教育和咨詢網站,也是國內最活躍和最 具影響力的經管類網絡社區。

經管之家從2006年起在國內最早開展數據分析培訓,累計培訓學員數萬人。在大數據的趨勢背景下,創新「CDA數據分析師」品牌,致力於為社會各界數據分析愛好者提供最優質、最科學、最系統的數據分析教育。截至2016年3月已成功舉辦40多期系統培訓,培訓學員達3千余名;CDA認證考試已成功舉辦三屆,報考人數上千人;中國數據分析師俱樂部(CDA CLUB),每周線下免費沙龍活動,已舉力40多期,累積會員2千余名;中國數據分析師行業峰會(CDA Summit),一年兩屆,參會人數皆達2千余名,在大數據領域影響力超前。「CDA數據分析師」隊伍在業界不斷壯大,對數據分析人才產業起到了巨大的推動作用。

第1章 數據分析概述1
1.1什麼是數據分析2
1.2數據分析六部曲2
1.2.1明確分析目的和內容2
1.2.2數據收集3
1.2.3數據預處理3
1.2.4數據分析4
1.2.5數據展現5
1.2.6報告撰寫6
1.3數據分析方法簡介6
1.3.1單純的數據加工方法6
1.3.2基於數理統計的數據分析方法7
1.3.3基於數據挖掘的數據分析方法8
1.3.4基於大數據的數據分析方法11
1.3.5數理統計與數據挖掘的區別和聯系13
1.4常用數據分析工具的安裝14
1.4.1在Excel2013中安裝數據分析工具14
1.4.2數據分析軟件SPSS的安裝16
1.5重要知識點回顧22
1.6課后習題23

第2章 描述性統計分析24
2.1直方圖25
2.1.1什麼是直方圖25
2.1.2如何看直方圖25
2.1.3如何畫直方圖26
2.1.4使用Excel2013進行直方圖的繪制27
2.2數據的計量尺度30
2.3數據的集中趨勢31
2.3.1平均數31
2.3.2分位數33
2.3.3眾數34
2.4數據的離中趨勢34
2.4.1極差35
2.4.2分位距35
2.4.3平均差36
2.4.4方差與標准差37
2.4.5離散系數38
2.5數據分布的測定40
2.5.1數據偏態及其測定40
2.5.2數據峰度及其測定41
2.5.3數據偏度和峰度的作用42
2.6數據的展示——統計圖43
2.6.1條形圖與扇形圖43
2.6.2折線圖44
2.6.3莖葉圖45
2.6.4箱線圖48
2.6.5統計圖小結52
2.7使用Excel實現數據的描述性統計及分析52
2.7.1使用Excel實現三國全部人物武力描述性統計52
2.7.2使用Excel分別實現三個國家人物武力描述性統計分析54
2.7.3使用Excel分別實現三個國家武將武力描述性統計分析55
2.7.4使用SPSS實現三個國家武將武力的分位數分析56
2.8重要知識點回顧59
2.9課后習題59

第3章 數理統計基礎62
3.1抽樣估計基礎63
3.1.1隨機事件63
3.1.2隨機事件的概率64
3.1.3隨機變量及其概率分布66
3.1.4隨機變量的數字特征71
3.2正態分布及三大分布72
3.2.1正態分布的概率密度函數73
3.2.2正態分布的特征73
3.2.3標准正態分布74
3.2.4基於正態分布的三大分布77
3.3中心極限定理80
3.3.1中心極限定理的提法80
3.3.2中心極限定理的內容81
3.3.3中心極限定理的意義與應用81
3.4重要知識點回顧82
3.5課后習題83

第4章 抽樣估計86
4.1抽樣估計的基本概念87
4.1.1總體及總體指標87
4.1.2樣本及樣本指標88
4.1.3抽樣估計的思想89
4.1.4抽樣估計的理論基礎91
4.1.5樣本統計量及分布92
4.2抽樣估計的方法——點估計93
4.2.1點估計93
4.2.2點估計精度和樣本容量的關系95
4.2.3點估計的優缺點96
4.3抽樣估計的誤差97
4.3.1抽樣估計的實際誤差97
4.3.2抽樣估計的平均誤差98
4.3.3抽樣估計的極限誤差102
4.4抽樣估計的方法——區間估計102
4.4.1抽樣估計的精度及置信度102
4.4.2區間估計的方法105
4.4.3區間估計的步驟106
4.5抽樣的組織形式和抽樣數目的確定107
4.5.1抽樣的組織形式107
4.5.2必要抽樣數目的確定109
4.6重要知識點回顧112
4.7課后習題113

第5章 假設檢驗117
5.1假設檢驗概述118
5.1.1假設檢驗的概念118
5.1.2假設檢驗的基本思想118
5.1.3假設檢驗在數據分析中的作用119
5.2假設檢驗的分析方法119
5.2.1假設檢驗的基本步驟119
5.2.2假設檢驗與區間估計的聯系122
5.2.3假設檢驗中的兩類錯誤123
5.2.4利用P值進行決策124
5.2.5應用假設檢驗需要注意的問題125
5.3常見的檢驗統計量126
5.3.1z檢驗統計量126
5.3.2t檢驗統計量128
5.3.3?2檢驗統計量129
5.3.4F檢驗統計量129
5.4SPSS中常用的幾種t檢驗實例130
5.4.1單樣本t檢驗130
5.4.2兩獨立樣本t檢驗133
5.4.3配對樣本t檢驗139
5.5重要知識點回顧143
5.6課后習題143

第6章 方差分析147
6.1方差分析148
6.1.1方差分析的概述148
6.1.2方差分析的幾個概念148
6.1.3單因素方差分析中的基本假定149
6.2單因素方差分析149
6.2.1單因素方差分析的原理149
6.2.2單因素方差分析的原假設150
6.2.3單因素方差分析的統計量151
6.2.4單因素方差分析的基本步驟152
6.3使用SPSS實現三國武將武力差異分析152
6.3.1檢驗不同國家武將數據是否符合正態分布153
6.3.2單因素方差分析操作步驟及必要說明155
6.3.3對三國武將武力單因素方差分析結果的分析160
6.4使用SPSS實現三國文官智力差異分析163
6.4.1檢驗不同國家文官數據是否符合正態分布163
6.4.2單因素方差分析操作步驟及必要說明165
6.4.3對三國文官智力單因素方差分析結果的分析167
6.5數說漢室衰微與三足鼎立現象169
6.6重要知識點回顧171
6.7課后習題171

第7章 相關與回歸分析175
7.1變量間的關系176
7.1.1函數關系及特點176
7.1.2相關關系及特點176
7.2相關分析177
7.2.1相關分析及步驟177
7.2.2散點圖的繪制177
7.2.3相關系數的計算178
7.2.4相關系數的顯著性檢驗182
7.3使用SPSS實現相關分析182
7.3.1在SPSS中繪制散點圖182
7.3.2在SPSS中進行正態性檢驗185
7.3.3相關系數的計算和檢驗187
7.4一元線性回歸分析189
7.4.1一元回歸模型及相關假定190
7.4.2一元線性回歸方程及求法190
7.4.3回歸模型的檢驗191
7.4.4回歸直線的擬合優度194
7.5使用SPSS實現一元線性回歸分析195
7.5.1畫散點圖和趨勢線195
7.5.2簡單相關分析198
7.5.3一元線性回歸分析的操作步驟199
7.5.4一元線性回歸分析的結果解讀205
7.6重要知識點回顧207
7.7課后習題208

附錄A 三國人物數據213
附錄B CDA數據分析師致力於最好的數據分析人才建設226
附錄C 參考答案230


序言:這是一個用數據說話的時代

在CDA(註冊數據分析師)Level I 級教材付諸印刷之際,關於數據分析這個職業及其價值的報導就有很多,比如,下面兩條報導就充分體現了在大數據時代下,數據分析的價值。這在以前是從來沒有過的。

LinkedIn 的最新投票結果顯示,“統計分析和數據挖掘”是2014 年最大的求職法寶。 LinkedIn對全球超過3.3 億用戶的工作經歷和技能進行分析,公佈2014 年最受雇主喜歡、最炙手可熱的25項技能,其中位列榜首的是統計分析和數據挖掘。

麥肯錫公司的一份研究預測稱,到2018 年,在“具有深入分析能力的人才”方面,美國可能面臨著14 萬到19 萬人的缺口,而“可以利用大數據分析來做出有效決策的經理和分析師”缺口則會達到150 萬人。

早在2010 年2 月,肯尼斯?庫克爾在《經濟學人》上發表了一份關於管理信息的特別報告——《數據,無所不在的數據》,文中寫道:“世界上有著無法想像的巨量數字信息,並以極快的速度增長……從經濟界到科學界,從政府部門到藝術領域,很多地方都已感受到了這種巨量信息的影響。”

2011 年,麥肯錫發布了《大數據:下一個具有創新力、競爭力與生產力的前沿領域》,使人們在這篇文章裡認識到了數據的力量,於是,一夜之間,面向數據分析市場的新產品、新技術、新服務、新業態正在不斷湧現。從個人、企業到國家層面,都把數據作為一種重要的戰略資產,逐漸認識到了數據的價值,不同程度地滲透到每個行業領域和部門,大大提升了企業的經營利潤,推動了經濟的發展。

這是一個用數據說話的時代,也是一個依靠數據競爭的時代。目前世界500 強企業中,有90%以上都建立了數據分析部門。 IBM、微軟、Google 等知名公司都積極投資數據業務,建立數據部門,培養數據分析團隊。各國政府和越來越多的企業意識到數據和信息已經成為企業的智力資產和資源,數據的分析和處理能力正在成為日益倚重的技術手段。

作為一個數學和統計學的強國,數據分析、數據挖掘和大數據價值挖掘行業在我國仍屬於朝陽行業,數據分析人才仍然比較稀缺。各行各業在平常工作中積累的各種各樣的數據分析問題仍然沒有得到及時有效地解決,有些問題,還是關乎本行業發展的至關重要的問題。數據積累越來越多,期待解決分析的數據問題也越來越多,人們逐漸習慣的使用數據作為決策的重要參考依據。據艾瑞的研究報告,未來與數據分析相關的就業崗位會在1000 萬左右,而目前來說國內合格的數據分析師不足5 萬左右,建立一個科學有效的數據分析師培訓體系迫在眉睫。

在這樣一個用數據說話的時代,積累了豐富的數據分析培訓經驗的人大經濟論壇承擔起使命,幾番調查研究,幾番反复推演論證,在2013 年,這個大數據的“元年”,CDA註冊數據分析師應運而生!

2003 年,人大經濟論壇依託中國人民大學成立,在金融、管理、統計領域已積澱11 個年頭,在國內享有良好聲譽。

2006 年,人大經濟論壇數據分析培訓中心設立,至今經歷8 個春秋,建立了大陸、台灣一線師資團隊,培養人才已達3 萬餘人。

2013 年,“中國數據挖掘與數據分析俱樂部CDMC”在人大經濟論壇旗下成立,2014 年改名為“中國數據分析師俱樂部CDA”。來自政府、金融、電信、零售、電商、互聯網、教育等行業人士加入會員,成功舉辦了數十場行業聚會。緊接著,積累了數據分析培訓豐富經驗的人大經濟論壇在國內展開CDA 數據分析師系統培訓和認證考試,成功見證了1000 餘名數據分析師的成長。

2015 年,人大經濟論壇將提供高水平、多層次的數據分析培訓服務,以在行業積累多年的影響力,吸引更好更多的優秀師資,瞄準行業內重要的數據分析問題和難點,攻堅突破,建立更加規範的行業培訓體系,引領數據分析培訓行業向規範化、有效化和前瞻化方向發展,為數據分析培訓做出應有的貢獻。

其實,數學(含統計)和英語一樣重要,都是人們不可或缺的重要技能。既然英語全民這麼重視,數學及其數據分析的技能更加需求於方方面面,更應被做大做強。讓我們共同期待人大經濟論壇辦成另一個數據的“新東方”!

覃智勇

2015 年1 月1 日

 

前 言

本書第1 版自2015 年2 月出版後,在市場上獲得了強烈的反響,當月在噹噹網的新書熱賣榜中排名第二,半年內銷售近萬冊,至2016 年1 月已經印刷了5 次,共發行近兩萬冊,圖書被收錄進百度百科。

如此巨大的市場銷量和好評,引起筆者的深思,除本書構思巧妙、內容翔實、文法流暢等主觀因素外,宏觀的市場環境也是不容忽視的。 2015 年,中國經濟由原來的爆發式增長進入到略顯低迷的新常態,無論是企業還是商家都感受到了壓力,錢不再像以前那樣好賺了。如何實現經濟增長,如何讓企業存活下去,這就需要深挖企業內部的痛點和洞察外部客戶的特點。深挖和洞察的過程就是數據分析的過程,數據分析時代在中國悄然到來了。

隨著數據分析師的價值凸顯,有越來越多先知先覺的人們紛紛轉行加入到數據分析師的大軍中。而統計學是數據分析師們必修的課程之一,“從零進階!數據分析的統計基礎”的本意就是讓更多的人能從零基礎快速進階到數據分析領域,並且重點講述數據分析師們必須具備的概率和統計的關鍵知識點。而經管之家(原人大經濟論壇)適時地推出本書,使其得到了很好的市場回饋。正所謂天時地利人和,造就了一本好書。

為了和市場的發展緊密結合,以及更好地適應讀者的需求,本書進行了改版。本次改版繼續堅持從零進階,強化數據分析基礎理論,和市場接軌等核心理念,繼續使用“三國武將”這個大家都耳熟能詳的業務背景知識。根據學員的需求和市場的實際情況,作者還對本書內容進行瞭如下調整。

(1)進一步精練數據分析的理論基礎,去除了一些不必要的數學公式。由於數據分析涉及概率論、微積分、數理統計的很多內容,但有些內容又不用全部學會,這讓初學者很難找出哪些是需要學習的內容,哪些是不需要學習的內容。因此在編寫本書第1 版時,將很多數據分析師不需要知道的知識點都省略了,比如省略了統計量服從某個分佈的證明過程,省略了抽樣平均誤差的證明過程。

這樣做的目的是為了讓數據分析師們能更快地進入這個領域,更好地洞察數據。在編寫本書的第2版時,繼續沿用此思想,去掉了一些數據分析師不必要知道的公式,增加了更多的數據分析思想的內容。

(2)將原來的第3 章抽樣估計分解成數理統計基礎和抽樣估計兩章,這樣做的目的是考慮到原來的第3 章涉及的理論內容太多,並且比較枯燥,將其分成兩部分,一來可以在每一部分增加更多的公式解讀內容,也可以補充更多的案例進來;二來降低了閱讀難度,使讀者能在學習知識的同時,獲得更多的成就感,從而更加有興趣學習。

(3)對試驗數據進行了更多的數據分析,增加了對讀者數據分析思維的培養。尤其是第2 章的描述性數據分析過程,進行了更深入的數據分析過程剖析,主要宗旨在於讓讀者更快地進入到數據分析行業的隊伍中來。當然,這也使得第2 版中的三國武將數據和第1 版中的數據存在一些差異。

當然,僅就本書而言,讀者並不會學到數據分析師所需要的全部知識,這需要幾年的循序漸進學習,但我希望讀者看過本書後,能快速具有數據分析師所需要的最基本的統計學知識,能快速地進入到數據分析的行業,從而具備一個數據分析師應具備的最起碼的知識,在工作中能說內行話,而不是說行外話。

在本書改版之際,作者衷心感謝經管之家(原人大經濟論壇)和CDA 課程研發團隊多年來始終不渝的關心與鼎力支持,感謝關繼傑,感謝廣大讀者給予我的理解與感受,感謝電子工業出版社多年來的密切合作與支持。沒有這一切,本書不可能取得這麼好的成果,我永遠感謝曾經幫助和支持過我的相識的和不相識的同志和朋友。由於作者水平有限,本書肯定會有不少缺點和不足,熱切期望得到專家和讀者的批評指正。

曹正鳳

2016 年3 月於北京


相關書籍