大數據架構和算法實現之路:電商系統的技術實戰 | 被動收入的投資秘訣 - 2024年7月

大數據架構和算法實現之路:電商系統的技術實戰

作者:黃申
出版社:機械工業
出版日期:2017年06月01日
ISBN:9787111569695
語言:繁體中文

本書介紹了一些主流技術在商業項目中的應用,包括機器學習中的分類、聚類和線性回歸,搜索引擎,推薦系統,用戶行為跟蹤,架構設計的基本理念及常用的消息和緩存機制。在這個過程中,我們有機會實踐R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系統。本書大的特色就是,從商業需求出發演變到合理的技術方案和實現,因此根據不同的應用場景、不同的數據集合、不同的進階難度,我們為讀者提供了反復溫習和加深印象的機會。機器學習和大數據挖掘領域的技術專家和管理者。在上海交通大學獲得計算機科學與工程博士學位,先后在微軟亞洲研究院,eBay中國研發中心,1號店和飛牛網工作。「微軟學者獎」獲得者,IBM中國首屆「ExtremeBlue天才孵化計划」成員。有超過10年的學術創新和實際研發的經驗,成功孵化了10多項關鍵算法,發表了20多篇國際學術論文,擁有10多項國際專利及申請。目前是《計算機工程》雜志的特邀審稿專家,參與撰寫的互聯網圖書《玩轉電商》已經於2014年出版。

推薦序前言引子第一篇 支持高效的運營第1章方案設計和技術選型:分類1.1分類的基本概念1.2分類任務的處理流程1.3算法:朴素貝葉斯和K最近鄰1.3.1朴素貝葉斯1.3.2K最近鄰1.4分類效果評估1.5相關軟件:R和Mahout1.5.1R簡介1.5.2Mahout簡介1.5.3Hadoop簡介1.6案例實踐1.6.1實驗環境設置1.6.2中文分詞1.6.3使用R進行朴素貝葉斯分類1.6.4使用R進行K最近鄰分類1.6.5單機環境使用Mahout運行朴素貝葉斯分類1.6.6多機環境使用Mahout運行朴素貝葉斯分類1.7更多的思考第2章方案設計和技術選型:聚類2.1聚類的基本概念2.2算法:K均值和層次型聚類2.2.1K均值聚類2.2.2層次型聚類2.3聚類的效果評估2.4案例實踐2.4.1使用R進行K均值聚類2.4.2使用Mahout進行K均值聚類第3章方案設計和技術選型:因變量連續的回歸分析3.1線性回歸的基本概念3.2案例實踐3.2.1實驗環境設置3.2.2R中數據的標准化3.2.3使用R的線性回歸分析第二篇 為顧客發現喜歡的商品:基礎篇第4章方案設計和技術選型:搜索4.1搜索引擎的基本概念4.1.1相關性4.1.2及時性4.2搜索引擎的評估4.3為什麼不是數據庫4.4系統框架4.4.1離線預處理4.4.2在線查詢4.5常見的搜索引擎實現4.5.1Lucene簡介4.5.2Solr簡介4.5.3Elasticsearch簡介4.6案例實踐4.6.1實驗環境設置4.6.2基於Solr的實現4.6.3基於Elasticsearch的實現4.6.4統一的搜索API第三篇 為顧客發現喜歡的商品:高級篇第5章方案設計和技術選型:NoSQL和搜索的整合5.1問題分析5.2HBase簡介5.3結合HBase和搜索引擎5.4案例實踐5.4.1實驗環境設置5.4.2HBase的部署5.4.3HBase和搜索引擎的集成第6章方案設計和技術選型:查詢分類和搜索的整合6.1問題分析6.2結合分類器和搜索引擎6.3案例實踐6.3.1實驗環境設置6.3.2構建查詢分類器6.3.3定制化的搜索排序6.3.4整合查詢分類和定制化排序第7章方案設計和技術選型:個性化搜索7.1問題分析7.2結合用戶畫像和搜索引擎7.3案例實踐7.3.1用戶畫像的讀取7.3.2個性化搜索引擎7.3.3結果對比第8章方案設計和技術選型:搜索分片8.1問題分析8.2利用搜索的分片機制8.3案例實踐8.3.1Solr路由的實現8.3.2Elasticsearch路由的實現第9章方案設計和技術選型:搜索提示9.1問題分析9.2案例實踐:基礎方案9.2.1Solr搜索建議和拼寫糾錯的實現9.2.2Elasticsearch搜索建議和拼寫糾錯的實現9.3改進方案9.4案例實踐:改進方案第10章方案設計和技術選型:推薦10.1推薦系統的基本概念10.2推薦的核心要素10.2.1系統角色10.2.2相似度10.2.3相似度傳播框架10.3推薦系統的分類10.4混合模型10.5系統架構10.6Mahout中的推薦算法10.7電商常見的推薦系統方案10.7.1電商常見的推薦系統方案10.7.2相似度的計算10.7.3協同過濾10.7.4結果的查詢10.8案例實踐10.8.1基於內容特征的推薦10.8.2基於行為特征的推薦第四篇 獲取數據,跟蹤效果第11章方案設計和技術選型:行為跟蹤11.1基本概念11.1.1網站的核心框架11.1.2行為數據的類型11.1.3行為數據的模式11.1.4設計理念11.2使用谷歌分析11.3自行設計之Flume、HDFS和Hive的整合11.3.1數據的收集——Flume簡介11.3.2數據的存儲——HadoopHDFS回顧11.3.3批量數據分析——Hive簡介11.3.4Flume、HDFS和Hive的整合方案11.4自行設計之Flume、Kafka和Storm的整合11.4.1實時性數據分析之Kafka簡介11.4.2實時性數據分析之Storm簡介11.4.3Flume、Kafka和Storm的整合方案11.5案例實踐11.5.1數據模式的設計11.5.2實驗環境設置11.5.3谷歌分析實戰11.5.4自主設計實戰之Flume、HDFS和Hive的整合11.5.5自主設計實戰之Flume、Kafka和Storm的整合11.6更多的思考后記


相關書籍