圖解統計與大數據(2版) | 被動收入的投資秘訣 - 2024年7月

圖解統計與大數據(2版)

作者:吳作樂吳秉翰
出版社:五南
出版日期:2018年10月28日
ISBN:9789571199764
語言:繁體中文
售價:304元

  認識傳統統計與大數據的關係:Small Data vs. Big Data
  認識敘述統計、推論統計的意義及應用
  認識傳統統計、工程統計、大數據分析三者的關係

  本書介紹在各個範疇會用到的統計,其中內容包涵傳統統計、基礎機率、工程統計、生物統計,以及2010年開始熱門的大數據分析。為了讓大家理解這些內容,本書使用深入淺出的說明,來認識各個範疇的統計意義,並了解統計如物理一樣,是用數學語言敘述的應用科學。

  由於統計涵蓋相當大的領域,本書針對的對象為「小學到高中的學生及一般人的敘述統計」、「高中到大學的推論統計」、「社會人士所需要理解的大數據與統計」三大區塊。
 

作者簡介

吳作樂

  學歷
  國立台灣大學數學系學士
  美國哥倫比亞大學數理統計博士

  經歷
  公共電視董事
  長榮大學資訊管理系教授   
  數位內容創作學程主任
  國家太空中心主任    
  國際宇宙航行學院 (International Academy of Astronautics) 院士
  宏遠育成科技股份有限公司總經理
  工研院電通所副所長
  美國Bell core公司信號處理部研發經理(District Manager)
  美國貝爾實驗室(Bell Labs) 衛星通訊部門研究員

吳秉翰

  學歷
  輔仁大學應用數學學士
 

前言
第一章 統計綱要
1-1 傳統統計與大數據分析有何不同 
1-2 傳統統計是什麼
 
第二章 傳統統計
一、敘述統計
2-1 常用的圖表(1)—長條圖 
2-2 常用的圖表(2)—直方圖 
2-3 常用的圖表(3)—折線圖 
2-4 常用的圖表(4)—圓餅圖、雷射圖 
2-5 常用的圖表(5)—泡泡圖、區域圖 
2-6 平均經常是無用的統計量 
2-7 認識不一樣的平均數:加權平均數 
2-8 濫用平均的實例(1)—只看PISA的平均值:part 1 
2-9 濫用平均的實例(2)—只看PISA的平均值:part 2 
2-10 標準差是什麼 
2-11 常態分布 
2-12 偏態、眾數、中位數 
2-13 濫用平均的實例(3)—M型社會 
2-14 濫用平均的實例(4)—台灣的平均所得 
2-15 濫用平均的實例(5)—不要再看平均所得,要看中位數所得 
2-16 濫用平均的實例(6)—不要再看平均所得,要看圖表 
2-17 衡量資料分散程度的數值 
2-18 升學用到的統計:百分位數與偏差值 
2-19 濫用平均的實例(7)—85%的人有屋、幸福指數 
2-20 難以察覺的圖表錯誤—非洲比你想像的大很多 
二、推論統計的基礎機率
2-21 機率的意義
2-22 機率的分類 
2-23 隨機取樣的方法(1) 
2-24 隨機取樣的方法(2) 
2-25 獨立事件的機率 
2-26 條件機率 
2-27 利用樹狀圖計算機率 
2-28 貝氏定理 
2-29 排列與組合(1) 
2-30 排列與組合(2) 
2-31 核電真的安全嗎?保險費怎麼來? 
2-32 樂透1:各獎項的機率為多少 
2-33 樂透2:多久會開出一次頭獎 
2-34 撲克牌遊戲中,梭哈的牌面大小 
三、推論統計
1. 基本工具與常用的概率分布
2-35 認識二項分布、卜瓦松分布 
2-36 大數法則 
2-37 中央極限定理 
2-38 中央極限定理的歷史 
2-39 標準化 
2-40 常態分布的歷史與標準常態分布 
2-41 t分布與自由度 
2-42 t分布歷史與t分布表 
2-43 卡方分布與F分布 
2. 估計
2-44 估計(1) 
2-45 估計(2) 
2-46 比例的區間估計(1)—民調的區間估計 
2-47 比例的區間估計(2)—所需樣本數量 
2-48 區間估計的應用:民調 
3. 假設檢定
2-49 假設—虛無假設與對立假設 
2-50 檢定的概念 
2-51 已知母體標準差,母體平均數的z檢定 
2-52 p值法 
2-53 未知母體標準差,母體平均數的t檢定 
2-54 母體比例的檢定 
2-55 已知母體標準差,兩母體平均數的z檢定 
2-56 未知母體標準差,假設兩母體標準差相同,兩母體平均數的t檢定 
2-57 未知母體標準差,假設兩母體標準差不同,兩母體平均數的t檢定 
2-58 兩母體比例的檢定 
2-59 相依樣本的檢定 
2-60 兩母體變異數的F檢定 
2-61 ANOVA檢定(1) 
2-62 ANOVA檢定(2) 
2-63 卡方檢定(1)—適合度檢定 
2-64 卡方檢定(2)—列聯表分析 
4. 迴歸分析
2-65 迴歸線的由來 
2-66 圖案與迴歸線的關係 
2-67 迴歸線怎麼計算 
2-68 迴歸線的可信度 
2-69 複迴歸分析(1) 
2-70 複迴歸分析(2) 
2-71 複迴歸分析(3) 
四、生物統計
2-72 健保費與二項分布的關係 
2-73 統計野生動物的數量—捉放法 
2-74 醫療統計:判斷何種物質引起疾病、藥物是否有用 

第三章 工程與商業的統計應用
一、工程統計
3-1 資料探勘(1)—資料探勘的介紹 
3-2 資料探勘(2)—數據中的異常值 
3-3 資料探勘(3)—分群討論 
3-4 資料探勘的應用(1) 
3-5 資料探勘的應用(2) 
3-6 時間序列 
3-7 機器學習 
二、大數據的統計方法
3-8 什麼是大數據 
3-9 大數據的問題 
3-10 統計學界的統計分析與商業界的大數據分析之差異 
3-11 統計學界的統計分析與工程界的統計分析之差異 
3-12 大數據分析的起點 
3-13 資訊視覺化 
3-14 視覺分析的意義 
3-15 建議大數據該用的統計方法 
3-16 卡門濾波 
3-17 資訊科學家的定位、大數據結論 
3-18 大數據與機器學習 (1)—概要 
3-19 大數據與機器學習 (2)—蒙地卡羅法 
3-20 大數據與機器學習(3)—蒙地卡羅法的實際應用 

第四章 統計的應用、其他
4-1 物價指數 
4-2 失業率 
4-3 怎樣的房價是合理 
4-4 如何看貧富差距?官員與學者的爭論:馬有多少牙齒? 
4-5 嘆!不曾有正確民調與認知(1)—民調有哪些問題 
4-6 嘆!不曾有正確民調與認知(2)—民調該注意的重點 
4-7 嘆!不曾有正確民調與認知(3)—該怎麼發展 
附錄一 參考連結 
附錄二 常用的統計符號 
附錄三 如何使用z表 
附錄四 如何使用t表 
附錄五 如何使用F表 
附錄六 如何使用χ2表 

前言

  近年來,鼓吹大數據(Big Data)蔚為風潮,相關的書籍也很暢銷。有趣的是:幾乎所有鼓吹大數據的書都刻意避開統計,而使用預測分析(Predictive Analytics)這樣的名詞,來包含傳統統計方法及工程統計的工具,使用資料科學家(Data scientist)來避開具有統計專業的統計學者。但是,無論如何重新包裝,網路時代所謂「大數據分析」就是傳統統計與工程統計的工具結合起來的商業用統計分析。

  本書是一本介紹在各個範疇會用到的統計,其中內容包含傳統統計、基礎機率、工程統計、生物統計,以及2010年開始熱門的大數據分析。為了讓大家理解這些內容,本書使用深入淺出的說明,來認識各個範疇的統計意義。

  由於統計涵蓋相當大的領域,本書針對的對象不似一般的書籍,只針對某一類人,而是針對「小學到高中的學生及一般人的敘述統計」、「高中到大學的推論統計」、「社會人士所需要理解的大數據與統計」三大區塊。有興趣的人可以針對自己所需的部分進行閱讀與認識。

  本書在各個範疇都會以歷史及實際生活應用來做解釋,內容包括:

  1. 認識敘述統計各圖表的意義及應用,包含近代的資訊視覺化工具。

  2. 介紹推論統計的各種統計分析。

  3. 認識傳統統計、工程統計、大數據分析三者的關係。

  4. 說明統計不是純數學的一部分,而是如同物理學一樣,是一門用數學語言敘述的應用科學。

  作者認為學習應該從有趣的內容下手,有了興趣才有動力去學習,否則會淪為類似工作一般,因為工作是因必要而學習,過了此階段就忘記,並且學的時候也相當痛苦,不斷的背公式套題目。所以學習東西,不在於它可以多有用,而在於它可以多有趣。如同學習音樂不會是從五線譜開始學習,而是從聽音樂、唱歌,感覺開心,有興趣再去精深;同理美術課不會從調色開始,從調出各種顏色為基礎再來學習畫畫,一定是先隨便畫,讓自己覺得開心有趣,再學習如何調出更多顏色來讓畫作更有層次。同理數學也不該從背公式開始,但大多數人最後的印象都是如此。遑論統計對大多數人的概念,就是不斷地套更複雜難明的公式。所以我們加入許多視覺化的工具來幫助理解統計。

  本書特色是從社會、經濟、醫療、政治各領域的應用來認識統計重要性,也使用各種圖表說明與操作,打破統計是既枯燥無味,又難學又難懂的情況。

  在本書出版之際,特別感謝義美食品高志明總經理全力支持本書的出版。本書雖經多次修訂,缺點與錯誤在所難免,歡迎各界批評指正,得以不斷改善。
 

1-1 傳統統計與大數據分析有何不同 (一)傳統統計分析 傳統統計的歷史源自17世紀,一直到20世紀,統計的研究是希望從樣本推論到母體,所以都是以小樣本數為主,其原因是有效樣本的不易取得且太過昂貴,並且數據受太多因素互相干擾而不準確,所以早期的統計研究分為兩個階段。 第一階段:資料分析(Data Analysis):研究如何收集、整理、歸納,描述資料中的數據和分散程度。第一階段的統計又被稱做探索性資料分析(Exploratory Data Analysis, EDA)。資料分析傾向於直接利用數據做判斷。 第二階段:推論統計(Inferential Statistics):由第一階段的資料分析推理數學模型,由隨機且有效的樣本推論到全體情形,來幫助決策。第二階段的統計又被稱做數理統計,傾向於利用第一階段的結果,並排除不必要的極端值後,再作分析。 以前統計因為樣本取得不易,必須用少數有效樣本推理、決策。也因此做許多機率模型並驗證,最後有了目前的統計。 (二)大數據分析 到了21世紀的電腦時代,因為能獲得大量資料,不像以前的資料量比較少,工程界已經有能力可以處理大量資料的分析,直接用電腦做出各種視覺化(Visualization),再來加以分析。但是由於可以獲得大量資料,也導致了樣本不完全是隨機樣本,所以大數據的分析不能僅限於傳統統計的分析方法(隨機抽樣),必須用到工程統計多年發展的工具。一直到2010年網路的普及程度提高,商業界也意識到利用大量外部資料來分析商業行為是勢在必行,所以商業界推出大數據分析(Big data)的統計方法,但其實目前大數據分析就是工程界上早已使用大量數據的統計分析。 處理大量資料的分析,又稱資料科學(Data Science),現狀是使用者不用完全懂統計的原理,只要會操作電腦來進行視覺化及分析,期望從中找到有用的資訊。當然這樣的方法在統計觀點是較不嚴謹的,但仍有助於分析。也正因為大數據的不嚴謹性,普遍地不被大多數統計學家認同是有效的統計方法。但在作者觀點,數據視覺化的提升可被認定是在敘述統計範疇內,並且使用的方法是工程統計的方法(Predictive Analytics),所以大數據分析可被歸類在統計之中,當然如果要很完整且有效的被利用,則需要數理統計的證明。


相關書籍