數據科學入門 | 被動收入的投資秘訣 - 2024年7月

數據科學入門

作者：（美）JOEL GRUS

出版社：人民郵電

出版日期：2016年03月01日

ISBN：9787115417411

語言：繁體中文

售價：360元

書籍連結

基於易於理解且具有數據科學相關的豐富的庫的Python語言環境，從零開始講解數據科學工作。具體內容包括：Python速成，可視化數據，線性代數，統計，概率，假設與推斷，梯度下降法，如何獲取數據，k近鄰法，朴素貝葉斯算法，等等。作者借助大量具體例子以及數據挖掘、統計學、機器學習等領域的重要概念，詳細展示了什麼是數據科學。格魯斯（Joel Grus）是Google的一位軟件工程師，曾於數家創業公司擔任數據科學家。目前住在西雅圖，專注於數據科學工作並樂此不疲。高蓉，講師，任教於杭州電子科技大學經濟學院金融系。博士和碩士畢業於南開大學經濟學院金融系，本科畢業於南開大學數學學院計算數學專業。研究領域包括資產定價、金融工程、計量經濟應用、數據科學應用。韓波，自由譯者、撰稿人，從事IT工作二十余年，主要興趣領域為機器學習、Python。曾為多家IT媒體撰稿，另有譯着《Python數據分析》。

前言第1章導論 1.1 數據的威力 1.2 什麼是數據科學 1.3 激勵假設：DataSciencester 1.3.1 尋找關鍵聯系人 1.3.2 你可能知道的數據科學家 1.3.3 工資與工作年限 1.3.4 付費賬戶 1.3.5 興趣主題 1.4 展望第2章 Python速成 2.1 基礎內容 2.1.1 Python獲取 2.1.2 Python之禪 2.1.3 空白形式 2.1.4 模塊 2.1.5 算法 2.1.6 函數 2.1.7 字符串 2.1.8 異常 2.1.9 列表 2.1.10 元組 2.1.11 字典 2.1.12 集合 2.1.13 控制流 2.1.14 真和假 2.2 進階內容 2.2.1 排序 2.2.2 列表解析 2.2.3 生成器和迭代器 2.2.4 隨機性 2.2.5 正則表達式 2.2.6 面向對象的編程 2.2.7 函數式工具 2.2.8 枚舉 2.2.9 壓縮和參數拆分 2.2.10 args和kwargs 2.2.11 歡迎來到DataSciencester 2.3 延伸學習第3章可視化數據 3.1 matplotlib 3.2 條形圖 3.3 線圖 3.4 散點圖 3.5 延伸學習第4章線性代數 4.1 向量 4.2 矩陣 4.3 延伸學習第5章統計學 5.1 描述單個數據集 5.1.1 中心傾向 5.1.2 離散度 5.2 相關 5.3 辛普森悖論 5.4 相關系數其他注意事項 5.5 相關和因果 5.6 延伸學習第6章概率 6.1 不獨立和獨立 6.2 條件概率 6.3 貝葉斯定理 6.4 隨機變量 6.5 連續分布 6.6 正態分布 6.7 中心極限定理 6.8 延伸學習第7章假設與推斷 7.1 統計假設檢驗 7.2 案例：擲硬幣 7.3 置信區間 7.4 P-hacking 7.5 案例：運行A/B 測試 7.6 貝葉斯推斷 7.7 延伸學習第8章梯度下降 8.1 梯度下降的思想 8.2 估算梯度 8.3 使用梯度 8.4 選擇正確步長 8.5 綜合 8.6 隨機梯度下降法 8.7 延伸學習第9章獲取數據 9.1 stdin和stdout 9.2 讀取文件 9.2.1 文本文件基礎 9.2.2 限制的文件 9.3 網絡抓取 9.3.1 HTML和解析方法 9.3.2 案例：關於數據的O』Reilly 圖書 9.4 使用API 9.4.1 JSON（和XML） 9.4.2 使用無驗證的API 9.4.3 尋找API 9.5 案例：使用Twitter API 9.6 延伸學習第10章數據工作 10.1 探索你的數據 10.1.1 探索一維數據 10.1.2 二維數據 10.1.3 多維數據 10.2 清理與修改 10.3 數據處理 10.4 數據調整 10.5 降維 10.6 延伸學習第11章機器學習 11.1 建模 11.2 什麼是機器學習 11.3 過擬合和欠擬合 11.4 正確性 11.5 偏倚-方差權衡 11.6 特征提取和選擇 11.7 延伸學習第12章 k近鄰法 12.1 模型 12.2 案例：最喜歡的編程語言 12.3 維數災難 12.4 延伸學習第13章朴素貝葉斯算法 13.1 一個簡易的垃圾郵件過濾器 13.2 一個復雜的垃圾郵件過濾器 13.3 算法的實現 13.4 測試模型 13.5 延伸學習第14章簡單線性回歸 14.1 模型 14.2 利用梯度下降法 14.3 最大似然估計 14.4 延伸學習第15章多重回歸分析 15.1 模型 15.2 最小二乘模型的進一步假設 15.3 擬合模型 15.4 解釋模型 15.5 擬合優度 15.6 題外話：Bootstrap 15.7 回歸系數的標准誤差 15.8 正則化 15.9 延伸學習第16章邏輯回歸 16.1 問題 16.2 Logistic函數 16.3 應用模型 16.4 擬合優度 16.5 支持向量機 16.6 延伸學習第17章決策樹 17.1 什麼是決策樹 17.2 熵 17.3 分割之熵 17.4 創建決策樹 17.5 綜合運用 17.6 隨機森林 17.7 延伸學習第18章神經網絡 18.1 感知器 18.2 前饋神經網絡 18.3 反向傳播 18.4 實例：戰勝CAPTCHA 18.5 延伸學習第19章聚類分析 19.1 原理 19.2 模型 19.3 示例：聚會 19.4 選擇聚類數目k 19.5 示例：對色彩進行聚類 19.6 自下而上的分層聚類 19.7 延伸學習第20章自然語言處理 20.1 詞雲 20.2 n-grams 模型 20.3 語法 20.4 題外話：吉布斯采樣 20.5 主題建模 20.6 延伸學習第21章網絡分析 21.1 中介中心度 21.2 特征向量中心度 21.2.1 矩陣乘法 21.2.2 中心度 21.3 有向圖與PageRank 21.4 延伸學習第22章推薦系統 22.1 手工甄篩 22.2 推薦流行事物 22.3 基於用戶的協同過濾方法 22.4 基於物品的協同過濾算法 22.5 延伸學習第23章數據庫與SQL 23.1 CREATE TABLE與INSERT 23.2 UPDATE 23.3 DELETE 23.4 SELECT 23.5 GROUP BY 23.6 ORDER BY 23.7 JOIN 23.8 子查詢 23.9 索引 23.10 查詢優化 23.11 NoSQL 23.12 延伸學習第24章 MapReduce 24.1 案例：單詞計數 24.2 為什麼是MapReduce 24.3 更加一般化的MapReduce 24.4 案例：分析狀態更新 24.5 案例：矩陣計算 24.6 題外話：組合器 24.7 延伸學習第25章數據科學前瞻 25.1 IPython 25.2 數學 25.3 不從零開始 25.3.1 NumPy 25.3.2 pandas 25.3.3 scikit-learn 25.3.4 可視化 25.3.5 R 25.4 尋找數據 25.5 從事數據科學 25.5.1 Hacker News 25.5.2 消防車 25.5.3 T 恤 25.5.4 你呢？作者簡介關於封面

大錢流：金錢的流動影響了歷史的變動...