大數據之路:阿里巴巴大數據實踐 | 被動收入的投資秘訣 - 2024年7月

大數據之路:阿里巴巴大數據實踐

作者:阿里巴巴數據技術及產品部
出版社:電子工業
出版日期:2017年07月01日
ISBN:9787121314384
語言:繁體中文

在阿里巴巴集團內,數據人員面臨的現實情況是:集團數據存儲已經達到EB級別,部分單張表每天的數據記錄數高達幾千億條;在2016年「雙11購物狂歡節」的24小時中,支付金額達到了1207億元人民幣,支付峰值高達12萬筆/秒,下單峰值達17.5萬筆/秒,媒體直播大屏處理的總數據量高達百億級別且所有數據都需要做到實時、准確地對外披露……巨大的信息量給數據采集、存儲和計算都帶來了極大的挑戰。《大數據之路——阿里巴巴大數據實踐》就是在此背景下完成的。本書中講到的阿里巴巴大數據系統架構,就是為了滿足不斷變化的業務需求,同時實現系統的高度擴展性、靈活性以及數據展現的高性能而設計的。本書由阿里巴巴數據技術及產品部組織並完成寫作,是阿里巴巴分享對大數據的認知,與生態伙伴共創數據智能的重要基石。相信本書中的實踐和思考對同行會有很大的啟發和借鑒意義。阿里巴巴數據技術及產品部,定位於阿里集團數據中台,為阿里生態內外的業務、用戶、中小企業提供全鏈路、全渠道的數據服務。作為阿里大數據戰略的核心踐行者,致力於「讓大數據賦能商業,創造價值」。經過多年的實踐,數據技術及產品部已經構建了從底層的數據采集、數據處理,到挖掘算法、數據應用服務以及數據產品的全鏈路、標准化的大數據體系。通過這個體系,超過EB級別的海量數據能夠高效融合,並以秒級的響應速度,服務並驅動阿里巴巴自身的業務和外部千萬用戶的發展。現在,阿里巴巴數據技術及產品部正通過技術和產品上的創新,探索全域數據的價值,將阿里在大數據上沉淀的能力對外分享,為各行各業的發展帶來更多可能性。

第1篇 數據技術篇第1章總述1第2章日志采集82.1瀏覽器的頁面日志采集82.1.1頁面瀏覽日志采集流程92.1.2頁面交互日志采集142.1.3頁面日志的服務器端清洗和預處理152.2無線客戶端的日志采集162.2.1頁面事件172.2.2控件點擊及其他事件182.2.3特殊場景192.2.4H5&Native日志統一202.2.5設備標識222.2.6日志傳輸232.3日志采集的挑戰242.3.1典型場景242.3.2大促保障26第3章數據同步293.1數據同步基礎293.1.1直連同步303.1.2數據文件同步303.1.3數據庫日志解析同步313.2阿里數據倉庫的同步方式353.2.1批量數據同步353.2.2實時數據同步373.3數據同步遇到的問題與解決方案393.3.1分庫分表的處理393.3.2高效同步和批量同步413.3.3增量與全量同步的合並423.3.4同步性能的處理433.3.5數據漂移的處理45第4章離線數據開發484.1數據開發平台484.1.1統一計算平台494.1.2統一開發平台534.2任務調度系統584.2.1背景584.2.2介紹604.2.3特點及應用65第5章實時技術685.1簡介695.2流式技術架構715.2.1數據采集725.2.2數據處理745.2.3數據存儲785.2.4數據服務805.3流式數據模型805.3.1數據分層805.3.2多流關聯835.3.3維表使用845.4大促挑戰&保障865.4.1大促特征865.4.2大促保障88第6章數據服務916.1服務架構演進916.1.1DWSOA926.1.2OpenAPI936.1.3SmartDQ946.1.4 統一的數據服務層966.2 技術架構976.2.1SmartDQ976.2.2iPush1006.2.3Lego1016.2.4uTiming1026.3 最佳實踐1036.3.1性能1036.3.2穩定性111第7章數據挖掘1167.1數據挖掘概述1167.2數據挖掘算法平台1177.3數據挖掘中台體系1197.3.1挖掘數據中台1207.3.2挖掘算法中台1227.4數據挖掘案例1237.4.1用戶畫像1237.4.2互聯網反作弊125第2篇 數據模型篇第8章大數據領域建模綜述1308.1為什麼需要數據建模1308.2關系數據庫系統和數據倉庫1318.3從OLTP和OLAP系統的區別看模型方法論的選擇1328.4典型的數據倉庫建模方法論1328.4.1ER模型1328.4.2維度模型1338.4.3DataVault模型1348.4.4Anchor模型1358.5阿里巴巴數據模型實踐綜述136第9章阿里巴巴數據整合及管理體系1389.1概述1389.1.1定位及價值1399.1.2體系架構1399.2規范定義1409.2.1名詞術語1419.2.2指標體系1419.3模型設計1489.3.1指導理論1489.3.2模型層次1489.3.3基本原則1509.4模型實施1529.4.1業界常用的模型實施過程1529.4.2OneData實施過程154第10章維度設計15910.1維度設計基礎15910.1.1維度的基本概念15910.1.2維度的基本設計方法16010.1.3維度的層次結構16210.1.4規范化和反規范化16310.1.5一致性維度和交叉探查16510.2維度設計高級主題16610.2.1維度整合16610.2.2水平拆分16910.2.3垂直拆分17010.2.4歷史歸檔17110.3維度變化17210.3.1緩慢變化維17210.3.2快照維表17410.3.3極限存儲17510.3.4微型維度17810.4特殊維度18010.4.1遞歸層次18010.4.2行為維度18410.4.3多值維度18510.4.4多值屬性18710.4.5雜項維度188第11章事實表設計19011.1事實表基礎19011.1.1事實表特性19011.1.2事實表設計原則19111.1.3事實表設計方法19311.2事務事實表19611.2.1設計過程19611.2.2單事務事實表20011.2.3多事務事實表20211.2.4兩種事實表對比20611.2.5父子事實的處理方式20811.2.6事實的設計准則20911.3周期快照事實表21011.3.1特性21111.3.2實例21211.3.3注意事項21711.4累積快照事實表21811.4.1設計過程21811.4.2特點22111.4.3特殊處理22311.4.4物理實現22511.5三種事實表的比較22711.6無事實的事實表22811.7聚集型事實表22811.7.1聚集的基本原則22911.7.2聚集的基本步驟22911.7.3阿里公共匯總層23011.7.4聚集補充說明234第3篇 數據管理篇第12章元數據23612.1元數據概述23612.1.1元數據定義23612.1.2元數據價值23712.1.3統一元數據體系建設23812.2元數據應用23912.2.1DataProfile23912.2.2元數據門戶24112.2.3應用鏈路分析24112.2.4數據建模24212.2.5驅動ETL開發243第13章計算管理24513.1系統優化24513.1.1HBO24613.1.2CBO24913.2任務優化25613.2.1Map傾斜25713.2.2Join傾斜26113.2.3Reduce傾斜269第14章存儲和成本管理27514.1數據壓縮27514.2數據重分布27614.3存儲治理項優化27714.4生命周期管理27814.4.1生命周期管理策略27814.4.2通用的生命周期管理矩陣28014.5數據成本計量28314.6數據使用計費284第15章數據質量28515.1數據質量保障原則28515.2數據質量方法概述28715.2.1消費場景知曉28915.2.2數據加工過程卡點校驗29215.2.3風險點監控29515.2.4質量衡量299第4篇 數據應用篇第16章數據應用30416.1生意參謀30516.1.1背景概述30516.1.2功能架構與技術能力30716.1.3商家應用實踐31016.2對內數據產品平台31316.2.1定位31316.2.2產品建設歷程31416.2.3整體架構介紹317附錄A本書插圖索引320

大數據是什麼?在過去的5年里,恐怕沒有另外一個詞比大數據更高頻;也沒有另外一個概念如大數據一樣,被紛繁解讀,著書立說。有趣的是,作為距離大數據最近的公司之一——盡管我們的初心或許和大數據沒有直接關系——在關於大數據的理論和概念的爭論中,阿里巴巴卻鮮有高談闊論。


相關書籍