白話大數據與機器學習 | 被動收入的投資秘訣 - 2024年7月

白話大數據與機器學習

作者：高揚等

出版社：機械工業

出版日期：2016年06月01日

ISBN：9787111538479

語言：繁體中文

本書將涵蓋以下比較重要的挖掘和分析知識點：概率、統計和分布、多維向量空間、回歸、聚類、分類、關聯分析、協同過濾、文本挖掘、神經網絡。同時，講解了大數據相關的人才需求、行業情況、大數據變現與產品發布、系統調優等讀者需要了解的內容。高揚，金山軟件西山居資深大數據架構師與大數據專家，有多年編程經驗(多年日本和澳洲工作經驗)和多年大數據架構設計與數據分析、處理經驗，目前負責西山居大數據產品的市場戰略。專注於大數據系統架構以及變現研究。擅長數據挖掘、數據建模、關系型數據庫應用以及大數據框架HadooD、Spark、Cassandra、Presto DB等的應用。負責西山居紫霞系統——大數據日志處理系統的系統架構與設計工作。衛崢，西山居軟件架構師，多年的軟件開發和架構經驗，精通C/C++、Python、Golang、JavaScript等多門編程語言，近幾年專注於數據處理、機器學算法的研究、應用與服務研發。曾在新浪網平台架構部負責音視頻轉碼平台的架構和研發工作，為新浪微博，新浪微盤，秒拍等提供視頻在線觀看服務。

前言第1章大數據產業1 1.1大數據產業現狀1 1.2對大數據產業的理解2 1.3大數據人才3 1.3.1供需失衡3 1.3.2人才方向3 1.3.3環節和工具5 1.3.4門檻障礙6 1.4小結8 第2章步入數據之門9 2.1什麼是數據9 2.2什麼是信息10 2.3什麼是算法12 2.4統計、概率和數據挖掘13 2.5什麼是商業智能13 2.6小結14 第3章排列組合與古典概型15 3.1排列組合的概念16 3.1.1公平的決斷——扔硬幣16 3.1.2非古典概型17 3.2排列組合的應用示例18 3.2.1雙色球彩票18 3.2.2購車搖號20 3.2.3德州撲克21 3.3小結25 第4章統計與分布27 4.1加和值、平均值和標准差27 4.1.1加和值28 4.1.2平均值29 4.1.3標准差30 4.2加權均值32 4.2.1混合物定價32 4.2.2決策權衡34 4.3眾數、中位數35 4.3.1眾數36 4.3.2中位數37 4.4歐氏距離37 4.5曼哈頓距離39 4.6同比和環比41 4.7抽樣43 4.8高斯分布45 4.9泊松分布49 4.10伯努利分布52 4.11小結54 第5章指標55 5.1什麼是指標55 5.2指標化運營58 5.2.1指標的選擇58 5.2.2指標體系的構建62 5.3小結63 第6章信息論64 6.1信息的定義64 6.2信息量65 6.2.1信息量的計算65 6.2.2信息量的理解66 6.3香農公式68 6.4熵70 6.4.1熱力熵70 6.4.2信息熵72 6.5小結75 第7章多維向量空間76 7.1向量和維度76 7.1.1信息冗余77 7.1.2維度79 7.2矩陣和矩陣計算80 7.3數據立方體83 7.4上卷和下鑽85 7.5小結86 第8章回歸87 8.1線性回歸87 8.2擬合88 8.3殘差分析94 8.4過擬合99 8.5欠擬合100 8.6曲線擬合轉化為線性擬合101 8.7小結104 第9章聚類105 9.1K—Means算法106 9.2有趣模式109 9.3孤立點110 9.4層次聚類110 9.5密度聚類113 9.6聚類評估116 9.6.1聚類趨勢117 9.6.2簇數確定119 9.6.3測定聚類質量121 9.7小結124 第10章分類125 10.1朴素貝葉斯126 10.1.1天氣的預測128 10.1.2疾病的預測130 10.1.3小結132 10.2決策樹歸納133 10.2.1樣本收集135 10.2.2信息增益136 10.2.3連續型變量137 10.3隨機森林140 10.4隱馬爾可夫模型141 10.4.1維特比算法144 10.4.2前向算法151 10.5支持向量機SVM154 10.5.1年齡和好壞154 10.5.2「下刀」不容易157 10.5.3距離有多遠158 10.5.4N維度空間中的距離159 10.5.5超平面怎麼畫160 10.5.6分不開怎麼辦160 10.5.7示例163 10.5.8小結164 10.6遺傳算法164 10.6.1進化過程164 10.6.2算法過程165 10.6.3背包問題165 10.6.4極大值問題173 10.7小結181 第11章關聯分析183 11.1頻繁模式和Apriori算法184 11.1.1頻繁模式184 11.1.2支持度和置信度185 11.1.3經典的Apriori算法187 11.1.4求出所有頻繁模式190 11.2關聯分析與相關性分析192 11.3稀有模式和負模式193 11.4小結194 第12章用戶畫像195 12.1標簽195 12.2畫像的方法196 12.2.1結構化標簽196 12.2.2非結構化標簽198 12.3利用用戶畫像203 12.3.1割裂型用戶畫像203 12.3.2緊密型用戶畫像204 12.3.3到底「像不像」204 12.4小結205 第13章推薦算法206 13.1推薦思路206 13.1.1貝葉斯分類206 13.1.2利用搜索記錄207 13.2User—basedCF209 13.3Item—basedCF211 13.4優化問題215 13.5小結217 第14章文本挖掘218 14.1文本挖掘的領域218 14.2文本分類219 14.2.1Rocchio算法220 14.2.2朴素貝葉斯算法223 14.2.3K—近鄰算法225 14.2.4支持向量機SVM算法226 14.3小結227 第15章人工神經網絡228 15.1人的神經網絡228 15.1.1神經網絡結構229 15.1.2結構模擬230 15.1.3訓練與工作231 15.2FANN庫簡介233 15.3常見的神經網絡235 15.4BP神經網絡235 15.4.1結構和原理236 15.4.2訓練過程237 15.4.3過程解釋240 15.4.4示例240 15.5玻爾茲曼機244 15.5.1退火模型244 15.5.2玻爾茲曼機245 15.6卷積神經網絡247 15.6.1卷積248 15.6.2圖像識別249 15.7深度學習255 15.8小結256 第16章大數據框架簡介257 16.1著名的大數據框架257 16.2Hadoop框架258 16.2.1MapReduce原理259 16.2.2安裝Hadoop261 16.2.3經典的WordCount264 16.3Spark框架269 16.3.1安裝Spark270 16.3.2使用Scala計算WordCount271 16.4分布式列存儲框架272 16.5PrestoDB——神奇的CLI273 16.5.1Presto為什麼那麼快273 16.5.2安裝Presto274 16.6小結277 第17章系統架構和調優278 17.1速度——資源的配置278 17.1.1思路一：邏輯層面的優化279 17.1.2思路二：容器層面的優化279 17.1.3思路三：存儲結構層面的優化280 17.1.4思路四：環節層面的優化280 17.1.5資源不足281 17.2穩定——資源的可用282 17.2.1借助雲服務282 17.2.2鎖分散282 17.2.3排隊283 17.2.4謹防「雪崩」283 17.3小結285 第18章數據解讀與數據的價值286 18.1運營指標286 18.1.1互聯網類型公司常用指標287 18.1.2注意事項288 18.2AB測試289 18.2.1網頁測試290 18.2.2方案測試290 18.2.3灰度發布292 18.2.4注意事項293 18.3數據可視化295 18.3.1圖表295 18.3.2表格299 18.4多維度——大數據的靈魂299 18.4.1多大算大299 18.4.2大數據網絡300 18.4.3去中心化才能活躍301 18.4.4數據會過剩嗎302 18.5數據變現的場景303 18.5.1數據價值的衡量的討論303 18.5.2場景1：征信數據307 18.5.3場景2：宏觀數據308 18.5.4場景3：畫像數據309 18.6小結310 附錄AVMware Workstation的安裝311 附錄BCentOS虛擬機的安裝方法314 附錄CPython語言簡介318 附錄DScikit—learn庫簡介323 附錄EFANN for Python安裝324 附錄F群眾眼中的大數據325 寫作花絮327 參考文獻329

線性代數深化訓練與考研指導