圖解統計與大數據（2版） | 被動收入的投資秘訣 - 2024年7月

圖解統計與大數據（2版）

作者：吳作樂吳秉翰

出版社：五南

出版日期：2018年10月28日

ISBN：9789571199764

語言：繁體中文

售價：304元

書籍連結

　　認識傳統統計與大數據的關係：Small Data vs. Big Data
　　認識敘述統計、推論統計的意義及應用
　　認識傳統統計、工程統計、大數據分析三者的關係

　　本書介紹在各個範疇會用到的統計，其中內容包涵傳統統計、基礎機率、工程統計、生物統計，以及2010年開始熱門的大數據分析。為了讓大家理解這些內容，本書使用深入淺出的說明，來認識各個範疇的統計意義，並了解統計如物理一樣，是用數學語言敘述的應用科學。

　　由於統計涵蓋相當大的領域，本書針對的對象為「小學到高中的學生及一般人的敘述統計」、「高中到大學的推論統計」、「社會人士所需要理解的大數據與統計」三大區塊。

作者簡介

吳作樂

　　學歷
　　國立台灣大學數學系學士
　　美國哥倫比亞大學數理統計博士

　　經歷
　　公共電視董事
　　長榮大學資訊管理系教授
　　數位內容創作學程主任
　　國家太空中心主任
　　國際宇宙航行學院 (International Academy of Astronautics) 院士
　　宏遠育成科技股份有限公司總經理
　　工研院電通所副所長
　　美國Bell core公司信號處理部研發經理(District Manager)
　　美國貝爾實驗室(Bell Labs) 衛星通訊部門研究員

吳秉翰

　　學歷
　　輔仁大學應用數學學士

前言
第一章　統計綱要
1-1 傳統統計與大數據分析有何不同　
1-2 傳統統計是什麼
　
第二章　傳統統計
一、敘述統計
2-1 常用的圖表(1)—長條圖　
2-2 常用的圖表(2)—直方圖　
2-3 常用的圖表(3)—折線圖　
2-4 常用的圖表(4)—圓餅圖、雷射圖　
2-5 常用的圖表(5)—泡泡圖、區域圖　
2-6 平均經常是無用的統計量　
2-7 認識不一樣的平均數：加權平均數　
2-8 濫用平均的實例(1)—只看PISA的平均值：part 1　
2-9 濫用平均的實例(2)—只看PISA的平均值：part 2　
2-10 標準差是什麼　
2-11 常態分布　
2-12 偏態、眾數、中位數　
2-13 濫用平均的實例(3)—M型社會　
2-14 濫用平均的實例(4)—台灣的平均所得　
2-15 濫用平均的實例(5)—不要再看平均所得，要看中位數所得　
2-16 濫用平均的實例(6)—不要再看平均所得，要看圖表　
2-17 衡量資料分散程度的數值　
2-18 升學用到的統計：百分位數與偏差值　
2-19 濫用平均的實例(7)—85%的人有屋、幸福指數　
2-20 難以察覺的圖表錯誤—非洲比你想像的大很多　
二、推論統計的基礎機率
2-21 機率的意義
2-22 機率的分類　
2-23 隨機取樣的方法(1)　
2-24 隨機取樣的方法(2)　
2-25 獨立事件的機率　
2-26 條件機率　
2-27 利用樹狀圖計算機率　
2-28 貝氏定理　
2-29 排列與組合(1)　
2-30 排列與組合(2)　
2-31 核電真的安全嗎？保險費怎麼來？　
2-32 樂透1：各獎項的機率為多少　
2-33 樂透2：多久會開出一次頭獎　
2-34 撲克牌遊戲中，梭哈的牌面大小　
三、推論統計
1. 基本工具與常用的概率分布
2-35 認識二項分布、卜瓦松分布　
2-36 大數法則　
2-37 中央極限定理　
2-38 中央極限定理的歷史　
2-39 標準化　
2-40 常態分布的歷史與標準常態分布　
2-41 t分布與自由度　
2-42 t分布歷史與t分布表　
2-43 卡方分布與F分布　
2. 估計
2-44 估計(1)　
2-45 估計(2)　
2-46 比例的區間估計(1)—民調的區間估計　
2-47 比例的區間估計(2)—所需樣本數量　
2-48 區間估計的應用：民調　
3. 假設檢定
2-49 假設—虛無假設與對立假設　
2-50 檢定的概念　
2-51 已知母體標準差，母體平均數的z檢定　
2-52 p值法　
2-53 未知母體標準差，母體平均數的t檢定　
2-54 母體比例的檢定　
2-55 已知母體標準差，兩母體平均數的z檢定　
2-56 未知母體標準差，假設兩母體標準差相同，兩母體平均數的t檢定　
2-57 未知母體標準差，假設兩母體標準差不同，兩母體平均數的t檢定　
2-58 兩母體比例的檢定　
2-59 相依樣本的檢定　
2-60 兩母體變異數的F檢定　
2-61 ANOVA檢定(1)　
2-62 ANOVA檢定(2)　
2-63 卡方檢定(1)—適合度檢定　
2-64 卡方檢定(2)—列聯表分析　
4. 迴歸分析
2-65 迴歸線的由來　
2-66 圖案與迴歸線的關係　
2-67 迴歸線怎麼計算　
2-68 迴歸線的可信度　
2-69 複迴歸分析(1)　
2-70 複迴歸分析(2)　
2-71 複迴歸分析(3)　
四、生物統計
2-72 健保費與二項分布的關係　
2-73 統計野生動物的數量—捉放法　
2-74 醫療統計：判斷何種物質引起疾病、藥物是否有用　

第三章　工程與商業的統計應用
一、工程統計
3-1 資料探勘(1)—資料探勘的介紹　
3-2 資料探勘(2)—數據中的異常值　
3-3 資料探勘(3)—分群討論　
3-4 資料探勘的應用(1)　
3-5 資料探勘的應用(2)　
3-6 時間序列　
3-7 機器學習　
二、大數據的統計方法
3-8 什麼是大數據　
3-9 大數據的問題　
3-10 統計學界的統計分析與商業界的大數據分析之差異　
3-11 統計學界的統計分析與工程界的統計分析之差異　
3-12 大數據分析的起點　
3-13 資訊視覺化　
3-14 視覺分析的意義　
3-15 建議大數據該用的統計方法　
3-16 卡門濾波　
3-17 資訊科學家的定位、大數據結論　
3-18 大數據與機器學習 (1)—概要　
3-19 大數據與機器學習 (2)—蒙地卡羅法　
3-20 大數據與機器學習(3)—蒙地卡羅法的實際應用　

第四章　統計的應用、其他
4-1 物價指數　
4-2 失業率　
4-3 怎樣的房價是合理　
4-4 如何看貧富差距？官員與學者的爭論：馬有多少牙齒？　
4-5 嘆！不曾有正確民調與認知(1)—民調有哪些問題　
4-6 嘆！不曾有正確民調與認知(2)—民調該注意的重點　
4-7 嘆！不曾有正確民調與認知(3)—該怎麼發展　
附錄一　參考連結　
附錄二　常用的統計符號　
附錄三　如何使用z表　
附錄四　如何使用t表　
附錄五　如何使用F表　
附錄六　如何使用χ2表　

前言

　　近年來，鼓吹大數據（Big Data）蔚為風潮，相關的書籍也很暢銷。有趣的是：幾乎所有鼓吹大數據的書都刻意避開統計，而使用預測分析（Predictive Analytics）這樣的名詞，來包含傳統統計方法及工程統計的工具，使用資料科學家（Data scientist）來避開具有統計專業的統計學者。但是，無論如何重新包裝，網路時代所謂「大數據分析」就是傳統統計與工程統計的工具結合起來的商業用統計分析。

　　本書是一本介紹在各個範疇會用到的統計，其中內容包含傳統統計、基礎機率、工程統計、生物統計，以及2010年開始熱門的大數據分析。為了讓大家理解這些內容，本書使用深入淺出的說明，來認識各個範疇的統計意義。

　　由於統計涵蓋相當大的領域，本書針對的對象不似一般的書籍，只針對某一類人，而是針對「小學到高中的學生及一般人的敘述統計」、「高中到大學的推論統計」、「社會人士所需要理解的大數據與統計」三大區塊。有興趣的人可以針對自己所需的部分進行閱讀與認識。

　　本書在各個範疇都會以歷史及實際生活應用來做解釋，內容包括：

　　1. 認識敘述統計各圖表的意義及應用，包含近代的資訊視覺化工具。

　　2. 介紹推論統計的各種統計分析。

　　3. 認識傳統統計、工程統計、大數據分析三者的關係。

　　4. 說明統計不是純數學的一部分，而是如同物理學一樣，是一門用數學語言敘述的應用科學。

　　作者認為學習應該從有趣的內容下手，有了興趣才有動力去學習，否則會淪為類似工作一般，因為工作是因必要而學習，過了此階段就忘記，並且學的時候也相當痛苦，不斷的背公式套題目。所以學習東西，不在於它可以多有用，而在於它可以多有趣。如同學習音樂不會是從五線譜開始學習，而是從聽音樂、唱歌，感覺開心，有興趣再去精深；同理美術課不會從調色開始，從調出各種顏色為基礎再來學習畫畫，一定是先隨便畫，讓自己覺得開心有趣，再學習如何調出更多顏色來讓畫作更有層次。同理數學也不該從背公式開始，但大多數人最後的印象都是如此。遑論統計對大多數人的概念，就是不斷地套更複雜難明的公式。所以我們加入許多視覺化的工具來幫助理解統計。

　　本書特色是從社會、經濟、醫療、政治各領域的應用來認識統計重要性，也使用各種圖表說明與操作，打破統計是既枯燥無味，又難學又難懂的情況。

　　在本書出版之際，特別感謝義美食品高志明總經理全力支持本書的出版。本書雖經多次修訂，缺點與錯誤在所難免，歡迎各界批評指正，得以不斷改善。

1-1 傳統統計與大數據分析有何不同（一）傳統統計分析傳統統計的歷史源自17世紀，一直到20世紀，統計的研究是希望從樣本推論到母體，所以都是以小樣本數為主，其原因是有效樣本的不易取得且太過昂貴，並且數據受太多因素互相干擾而不準確，所以早期的統計研究分為兩個階段。第一階段：資料分析（Data Analysis）：研究如何收集、整理、歸納，描述資料中的數據和分散程度。第一階段的統計又被稱做探索性資料分析（Exploratory Data Analysis, EDA）。資料分析傾向於直接利用數據做判斷。第二階段：推論統計（Inferential Statistics）：由第一階段的資料分析推理數學模型，由隨機且有效的樣本推論到全體情形，來幫助決策。第二階段的統計又被稱做數理統計，傾向於利用第一階段的結果，並排除不必要的極端值後，再作分析。以前統計因為樣本取得不易，必須用少數有效樣本推理、決策。也因此做許多機率模型並驗證，最後有了目前的統計。（二）大數據分析到了21世紀的電腦時代，因為能獲得大量資料，不像以前的資料量比較少，工程界已經有能力可以處理大量資料的分析，直接用電腦做出各種視覺化（Visualization），再來加以分析。但是由於可以獲得大量資料，也導致了樣本不完全是隨機樣本，所以大數據的分析不能僅限於傳統統計的分析方法（隨機抽樣），必須用到工程統計多年發展的工具。一直到2010年網路的普及程度提高，商業界也意識到利用大量外部資料來分析商業行為是勢在必行，所以商業界推出大數據分析（Big data）的統計方法，但其實目前大數據分析就是工程界上早已使用大量數據的統計分析。處理大量資料的分析，又稱資料科學（Data Science），現狀是使用者不用完全懂統計的原理，只要會操作電腦來進行視覺化及分析，期望從中找到有用的資訊。當然這樣的方法在統計觀點是較不嚴謹的，但仍有助於分析。也正因為大數據的不嚴謹性，普遍地不被大多數統計學家認同是有效的統計方法。但在作者觀點，數據視覺化的提升可被認定是在敘述統計範疇內，並且使用的方法是工程統計的方法（Predictive Analytics），所以大數據分析可被歸類在統計之中，當然如果要很完整且有效的被利用，則需要數理統計的證明。

圖解統計與大數據（2版） | 被動收入的投資秘訣 - 2024年7月

圖解統計與大數據（2版）

相關書籍