Spark大數據分析技術與實戰 | 被動收入的投資秘訣 - 2024年7月

Spark大數據分析技術與實戰

作者:經管之家(主編)
出版社:電子工業
出版日期:2017年07月01日
ISBN:9787121319037
語言:繁體中文

Spark作為下一代大數據處理引擎,經過短短幾年的飛躍式發展,正在以燎原之勢席卷業界,現已成為大數據產業中的一股中堅力量。本書着重講解了Spark內核、Spark Graph X、Spark SQL、Spark Streaming和Spark MLlib的核心概念與理論框架,並提供了相應的示例與解析。全書共分8章,其中前4章介紹Spark內核,主要包括Spark簡介、集群部署、工作原理、核心概念與操作等;后4章分別介紹Spark內核上的核心組件,每章系統地介紹Spark的一個組件,並附以相應的案例分析。本書適合作為高等院校計算機相關專業的研究生學習參考資料,也適合大數據技術初學者閱讀,還適合於所有願意對大數據技術有所了解並想要將大數據技術應用於本職工作的讀者閱讀。經管之家(www.jg.com.cn):原人大經濟論壇,於2003年成立,致力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內優秀的經濟、管理、金融、統計類的在線教育和咨詢網站,也是國內活躍和具影響力的經管類網絡社區。經管之家從2006年起在國內開展數據分析培訓,累計培訓學員數萬人。在大數據的趨勢背景下,創新「CDA數據分析師」品牌,致力於為社會各界數據分析愛好者提供優質、科學、系統的數據分析教育。截至2016年3月已成功舉辦40多期系統培訓,培訓學員達3千余名;CDA認證考試已成功舉辦三屆,報考人數上千人;中國數據分析師俱樂部(CDACLUB),每周線下免費沙龍活動,已舉力40多期,累積會員2千余名;中國數據分析師行業峰會(CDA Summit),一年兩屆,參會人數皆達2千余名,在大數據領域影響力超前。「CDA數據分析師」隊伍在業界不斷壯大,對數據分析人才產業起到了巨大的推動作用。

第1章Spark導論11.1Spark的發展21.2什麼是Spark31.3Spark主要特征31.3.1快速31.3.2簡潔易用51.3.3通用61.3.4多種運行模式8第2章Spark集群部署92.1運行環境說明92.1.1軟硬件環境92.1.2集群網絡環境102.2安裝VMwareWorkstation11102.3安裝CentOS6162.4安裝Hadoop212.4.1克隆並啟動虛擬機212.4.2網絡基本配置242.4.3安裝JDK272.4.4免密鑰登錄配置282.4.5Hadoop配置292.4.6配置從節點332.4.7配置系統文件332.4.8啟動Hadoop集群332.5安裝Scala352.6安裝Spark362.6.1下載並解壓Spark安裝包362.6.2配置Spark—env.sh372.6.3配置Spark—defaults.conf372.6.4配置Slaves382.6.5配置環境變量382.6.6發送至Slave1、Slave2392.7啟動Spark39第3章RDD編程423.1RDD定義423.2RDD的特性433.2.1分區433.2.2依賴443.2.3計算453.2.4分區函數453.2.5優先位置463.3創建操作463.3.1基於集合的創建操作473.3.2基於外部存儲的創建操作473.4常見執行操作493.5常見轉換操作493.5.1一元轉換操作503.5.2二元轉換操作533.6持久化操作563.7存儲操作58第4章Spark調度管理與應用程序開發594.1Spark調度管理基本概念594.2作業調度流程604.2.1作業的生成與提交614.2.2階段的划分624.2.3調度階段的提交624.2.4任務的提交與執行624.3基於IntelliJIDEA構建Spark應用程序644.3.1安裝IntelliJIDEA644.3.2創建Spark應用程序704.3.3集群模式運行Spark應用程序81第5章GraphX875.1GraphX概述875.2GraphX基本原理895.2.1圖計算模型處理流程895.2.2GraphX定義905.2.3GraphX的特點905.3GraphX設計與實現915.3.1彈性分布式屬性圖915.3.2圖的數據模型925.3.3圖的存儲模型945.3.4GraphX模型框架975.4GraphX操作975.4.1創建圖975.4.2基本屬性操作1005.4.3結構操作1025.4.4轉換操作1035.4.5連接操作1055.4.6聚合操作1065.5GraphX案例解析1075.5.1PageRank算法與案例解析1075.5.2TriangleCount算法與案例解析110第6章SparkSQL1136.1SparkSQL概述1136.2SparkSQL邏輯架構1166.2.1SQL執行流程1166.2.2Catalyst1176.3SparkSQLCLI1176.3.1硬軟件環境1176.3.2集群環境1186.3.3結合Hive1186.3.4啟動Hive1186.4DataFrame編程模型1196.4.1DataFrame簡介1196.4.2創建DataFrames1206.4.3保存DataFrames1266.5DataFrame常見操作1276.5.1數據展示1276.5.2常用列操作1286.5.3過濾1316.5.4排序1326.5.5其他常見操作1346.6基於Hive的學生信息管理系統的SQL查詢案例與解析1376.6.1SparkSQL整合Hive1376.6.2構建數據倉庫1386.6.3加載數據1416.6.4查詢數據142第7章SparkStreaming1467.1SparkStreaming概述1467.2SparkStreaming基礎概念1477.2.1批處理時間間隔1477.2.2窗口時間間隔1487.2.3滑動時間間隔1487.3DStream基本概念1497.4DStream的基本操作1507.4.1無狀態轉換操作1507.4.2有狀態轉換操作1527.4.3輸出操作1537.4.4持久化操作1547.5數據源1547.5.1基礎數據源1547.5.2高級數據源1557.6SparkStreaming編程模式與案例分析1567.6.1SparkStreaming編程模式1567.6.2文本文件數據處理案例(一)1577.6.3文本文件數據處理案例(二)1607.6.4網絡數據處理案例(一)1647.6.5網絡數據處理案例(二)1717.6.6stateful應用案例1757.6.7window應用案例1807.7性能考慮1857.7.1運行時間優化1857.7.2內存使用與垃圾回收186第8章SparkMLlib1878.1SparkMLlib概述1878.1.1機器學習介紹1878.1.2SparkMLlib簡介1898.2MLlib向量與矩陣1908.2.1MLlib向量1908.2.2MLlib矩陣1928.3SparkMLlib分類算法1968.3.1貝葉斯分類算法1978.3.2支持向量機算法2018.3.3決策樹算法2048.4MLlib線性回歸算法2088.5MLlib聚類算法2128.6MLlib協同過濾215


相關書籍