大數據集成 | 被動收入的投資秘訣 - 2024年7月

大數據集成

作者:(美)董欣等
出版社:機械工業
出版日期:2017年05月01日
ISBN:9787111559863
語言:繁體中文

本書作者在多年研究傳統數據集成的基礎上,着重分析了大數據背景下的大數據集成。和傳統的數據集成相比,大數據集成具有一些新的挑戰,例如數據和數據源的海量性、數據的多樣性和數據的動態性等。本書共分6章,包括大數據集成的挑戰和機遇、模式對齊、記錄鏈接、數據融合、出現的新問題和結論,系統地討論了解決大數據集成中關鍵問題的一些重要研究成果和方法,對大數據集成的研究者和實踐者都很有幫助。另外本書也可以作為學生學習該領域的入門讀物。Xin Luna Dong(董欣) 2013年加入谷歌公司擔任高級研究員,研究興趣包括數據集成、數據清洗和知識管理。在加入谷歌之前,她是AT&T實驗室的研究員。董欣博士碩士畢業於北京大學,本科畢業於南開大學。Divesh Srivastava AT&T實驗室數據庫領域首席科學家.

叢書前言譯者序前言第1章 大數據集成的挑戰和機遇11.1 傳統數據集成21.1.1 航班示例:數據源21.1.2 航班示例:數據集成71.1.3 數據集成:體系結構和三個主要步驟101.2 大數據集成:挑戰121.2.1 「V」維度131.2.2 案例研究:深網數據量151.2.3 案例研究:抽取的領域數據181.2.4 案例研究:深網數據的質量221.2.5 案例研究:淺網結構化數據251.2.6 案例研究:抽取的知識三元組281.3 大數據集成:機遇301.3.1 數據冗余性311.3.2 長數據321.3.3 大數據平台331.4 章節安排33第2章 模式對齊342.1 傳統模式對齊:快速導覽352.1.1 中間模式352.1.2 屬性匹配362.1.3 模式映射372.1.4 查詢問答382.2 應對多樣性和高速性的挑戰392.2.1 概率模式對齊392.2.2 按需集成用戶反饋522.3 應對多樣性和海量性的挑戰542.3.1 集成深網數據552.3.2 集成Web表格59第3章 記錄鏈接683.1 傳統記錄鏈接:快速導覽693.1.1 兩兩匹配713.1.2 聚類723.1.3 分塊743.2 應對海量性挑戰763.2.1 使用MapReduce並行分塊773.2.2 meta-blocking:修剪兩兩匹配833.3 應對高速性挑戰883.4 應對多樣性挑戰953.5 應對真實性挑戰1003.5.1 時態記錄鏈接1003.5.2 具有唯 一性約束的記錄鏈接107第4章 大數據集成:數據融合1134.1 傳統數據融合:快速導覽1144.2 應對真實性挑戰1164.2.1 數據源的准確度1174.2.2 值為真的概率1184.2.3 數據源之間的復制關系1214.2.4 端到端的解決方案1284.2.5 擴展性和適應性1314.3 應對海量性挑戰1344.3.1 基於MapReduce框架做離線融合1354.3.2 在線數據融合1364.4 應對高速性挑戰1424.5 應對多樣性挑戰146第5章 大數據集成:出現的新問題1495.1 眾包的角色1495.1.1 利用傳遞關系1505.1.2 眾包端到端的工作流1555.1.3 未來的工作1585.2 數據源選擇1585.2.1 靜態數據源1605.2.2 動態數據源1625.2.3 未來的工作1665.3 數據源分析1665.3.1 Bellman系統1675.3.2 概述數據源1705.3.3 未來的工作174第6章 結論175參考文獻177索引184


相關書籍