數據架構:大數據、數據倉庫以及Data Vault | 被動收入的投資秘訣 - 2024年7月

數據架構:大數據、數據倉庫以及Data Vault

作者:(美)W.H.INMON,DANIEL LINSTEDT
出版社:人民郵電
出版日期:2017年01月01日
ISBN:9787115438430
語言:繁體中文

本書是數據倉庫之父Inmon的新作,探討數據的架構和如何在現有系統中有效地利用數據。本書的主題涵蓋企業數據、大數據、數據倉庫、Data Vault、業務系統和架構。主要包括:在分析和大數據之間建立關聯,如何利用現有信息系統,如何導出重復型數據和非重復型數據,大數據以及使用大數 據的商業價值,等等。W.H. Inmon 數據倉庫之父,早期的數據倉庫概念提出者,在數據庫技術管理與數據庫設計方面擁有30多年的經驗。2007年,Inmon被ComputerWorld雜志評為計算機行業頗具影響力的十大名人之一。 Daniel Linstedt 世界知名數據倉庫專家、商業智能分析家,Empowered Holdings公司創始人兼主席,有20余年的IT行業打拼經驗。Linstedt還是下一代數據倉庫模型Data Vault的發明者。

第1章 企業數據 11.1 企業數據 11.1.1 企業的全體數據 11.1.2 非結構化數據的划分 21.1.3 業務相關性 31.1.4 大數據 31.1.5 分界線 41.1.6 大陸分水嶺 51.1.7 企業數據全貌 61.2 數據基礎設施 61.2.1 重復型數據的兩種類型 71.2.2 重復型結構化數據 71.2.3 重復型大數據 81.2.4 兩種基礎設施 91.2.5 優化了什麼 101.2.6 對比兩種基礎設施 111.3 分界線 121.3.1 企業數據分類 121.3.2 分界線 121.3.3 重復型非結構化數據 131.3.4 非重復型非結構化數據 151.3.5 不同的領域 171.4 企業數據統計圖 171.5 企業數據分析 221.6 數據的生命周期——隨時間推移理解數據 271.7 數據簡史 311.7.1 紙帶和穿孔卡片 311.7.2 磁帶 321.7.3 磁盤存儲器 321.7.4 數據庫管理系統 321.7.5 耦合處理器 331.7.6 在線事務處理 331.7.7 數據倉庫 341.7.8 並行數據管理 341.7.9 Data Vault 351.7.10 大數據 351.7.11 分界線 35第2章 大數據 372.1 大數據簡史 372.1.1 打個比方——占領制高點 372.1.2 占領制高點 382.1.3 IBM360帶來的標准化 382.1.4 在線事務處理 392.1.5 Teradata的出現和大規模並行處理 392.1.6 隨后到來的Hadoop和大數據 392.1.7 IBM和Hadoop 392.1.8 控制制高點 402.2 大數據是什麼 402.2.1 另一種定義 402.2.2 大數據量 402.2.3 廉價存儲器 412.2.4 羅馬人口統計方法 412.2.5 非結構化數據 422.2.6 大數據中的數據 422.2.7 重復型數據中的語境 432.2.8 非重復型數據 442.2.9 非重復型數據中的語境 442.3 並行處理 452.4 非結構化數據 502.4.1 隨處可見的文本信息 502.4.2 基於結構化數據的決策 512.4.3 業務價值定位 512.4.4 重復型和非重復型的非結構化信息 522.4.5 易於分析 532.4.6 語境化 542.4.7 一些語境化方法 552.4.8 MapReduce 562.4.9 手工分析 562.5 重復型非結構化數據的語境化 572.5.1 解析重復型非結構化數據 572.5.2 重組輸出數據 582.6 文本消歧 582.6.1 從敘事到分析數據庫 582.6.2 文本消歧的輸入 592.6.3 映射 602.6.4 輸入/輸出 612.6.5 文檔分片/指定值處理 612.6.6 文檔預處理 622.6.7 電子郵件——一個特例 622.6.8 電子表格 632.6.9 報表反編譯 632.7 分類法 652.7.1 數據模型和分類法 652.7.2 分類法的適用性 662.7.3 分類法是什麼 662.7.4 多語言分類法 682.7.5 分類法與文本消歧的動態 682.7.6 分類法和文本消歧——不同的技術 692.7.7 分類法的不同類型 702.7.8 分類法——隨時間推移不斷維護 70第3章 數據倉庫 713.1 數據倉庫簡史 713.1.1 早期的應用程序 713.1.2 在線應用程序 713.1.3 抽取程序 723.1.4 4GL技術 733.1.5 個人電腦 733.1.6 電子表格 743.1.7 數據完整性 753.1.8 蛛網系統 763.1.9 維護積壓 773.1.10 數據倉庫 783.1.11 走向架構式環境 783.1.12 走向企業信息工廠 783.1.13 DW 2.0 793.2 集成的企業數據 813.2.1 數量眾多的應用程序 813.2.2 放眼企業 823.2.3 多個分析師 833.2.4 ETL技術 843.2.5 集成的挑戰 863.2.6 數據倉庫的效益 863.2.7 粒度的視角 873.3 歷史數據 893.4 數據集市 923.4.1 顆粒化的數據 923.4.2 關系數據庫設計 933.4.3 數據集市 933.4.4 關鍵性能指標 943.4.5 維度模型 943.4.6 數據倉庫和數據集市的整合 953.5 作業數據存儲 963.5.1 集成數據的在線事務處理 963.5.2 作業數據存儲 973.5.3 ODS和數據倉庫 983.5.4 ODS分類 993.5.5 將外部數據更新到ODS 993.5.6 ODS/數據倉庫接口 1003.6 對數據倉庫的誤解 1013.6.1 一種簡單的數據倉庫架構 1013.6.2 在數據倉庫中進行在線高性能事務處理 1013.6.3 數據完整性 1023.6.4 數據倉庫工作負載 1023.6.5 來自數據倉庫的統計處理 1033.6.6 統計處理的頻率 1043.6.7 探查倉庫 104第4章 Data Vault 1064.1 Data Vault簡介 1064.1.1 Data Vault 2.0建模 1074.1.2 Data Vault 2.0方法論定義 1074.1.3 Data Vault 2.0架構 1074.1.4 Data Vault 2.0實施 1084.1.5 Data Vault 2.0商業效益 1084.1.6 Data Vault 1.0 1094.2 Data Vault建模介紹 1104.2.1 Data Vault模型概念 1104.2.2 Data Vault模型定義 1104.2.3 Data Vault模型組件 1114.2.4 Data Vault和數據倉庫 1124.2.5 轉換到Data Vault建模 1124.2.6 數據重構 1134.2.7 Data Vault建模的基本規則 1144.2.8 為什麼需要多對多鏈接結構 1144.2.9 散列鍵代替順序號 1154.3 Data Vault架構介紹 1164.3.1 Data Vault 2.0架構 1164.3.2 如何將NoSQL適用於本架構 1174.3.3 Data Vault 2.0架構的目標 1174.3.4 Data Vault 2.0建模的目標 1184.3.5 軟硬業務規則 1184.3.6 托管式SSBI與DV2架構 1194.4 Data Vault方法論介紹 1204.4.1 Data Vault 2.0方法論概述 1204.4.2 CMMI和Data Vault 2.0方法論 1204.4.3 CMMI與敏捷性的對比 1224.4.4 項目管理實踐和SDLC與CMMI和敏捷的對比 1234.4.5 六西格瑪和Data Vault 2.0方法論 1234.4.6 全質量管理 1244.5 Data Vault實施介紹 1254.5.1 實施概述 1254.5.2 模式的重要性 1264.5.3 再造工程和大數據 1274.5.4 虛擬化我們的數據集市 1284.5.5 托管式自助服務BI 128第5章 作業環境 1305.1 作業環境——簡史 1305.1.1 計算機的商業應用 1305.1.2 最初的應用程序 1315.1.3 Ed Yourdon和結構化革命 1325.1.4 系統開發生命周期 1325.1.5 磁盤技術 1325.1.6 進入數據庫管理系統時代 1335.1.7 響應時間和可用性 1335.1.8 現代企業計算 1365.2 標准工作單元 1365.2.1 響應時間要素 1365.2.2 沙漏的比喻 1375.2.3 車道的比喻 1385.2.4 你的車跑得跟前面的車一樣快 1395.2.5 標准工作單元 1395.2.6 服務等級協議 1395.3 面向結構化環境的數據建模 1405.3.1 路線圖的作用 1405.3.2 只要粒度化的數據 1405.3.3 實體關系圖 1415.3.4 數據項集 1425.3.5 物理數據庫設計 1435.3.6 關聯數據模型的不同層次 1435.3.7 數據聯動的示例 1445.3.8 通用數據模型 1465.3.9 作業數據模型和數據倉庫數據模型 1465.4 元數據 1465.4.1 典型元數據 1465.4.2 存儲庫 1475.4.3 使用元數據 1485.4.4 元數據用於分析 1495.4.5 查看多個系統 1505.4.6 數據譜系 1505.4.7 比較已有系統和待建系統 1505.5 結構化數據的數據治理 1515.5.1 企業活動 1515.5.2 數據治理的動機 1525.5.3 修復數據 1525.5.4 粒度化的詳細數據 1535.5.5 編制文檔 1535.5.6 數據主管崗位 154第6章 數據架構 1566.1 數據架構簡史 1566.2 大數據/已有系統的接口 1666.2.1 大數據/已有系統的接口 1666.2.2 重復型原始大數據/已有系統接口 1676.2.3 基於異常的數據 1686.2.4 非重復型原始大數據/已有系統接口 1696.2.5 進入已有系統環境 1706.2.6 「語境豐富」的大數據環境 1716.2.7 將結構化數據/非結構化數據放在一起分析 1726.3 數據倉庫/作業環境接口 1726.3.1 作業環境/數據倉庫接口 1726.3.2 經典的ETL接口 1736.3.3 作業數據存儲/ETL接口 1736.3.4 集結區 1746.3.5 變化數據的捕獲 1756.3.6 內聯轉換 1756.3.7 ELT處理 1766.4 數據架構——一種高層視角 1776.4.1 一種高層視角 1776.4.2 冗余 1776.4.3 記錄系統 1786.4.4 不同的群體 180第7章 重復型分析 1817.1 重復型分析——必備基礎 1817.1.1 不同種類的分析 1817.1.2 尋找模式 1827.1.3 啟發式處理 1837.1.4 沙箱 1867.1.5 標准概況 1877.1.6 提煉、篩選 1887.1.7 建立數據子集 1887.1.8 篩選數據 1907.1.9 重復型數據和語境 1927.1.10 鏈接重復型記錄 1937.1.11 日志磁帶記錄 1937.1.12 分析數據點 1947.1.13 按時間的推移研究數據 1957.2 分析重復型數據 1967.2.1 日志數據 1987.2.2 數據的主動/被動式索引 1997.2.3 匯總/詳細數據 2007.2.4 大數據中的元數據 2027.2.5 相互關聯的數據 2037.3 重復型分析 2047.3.1 內部、外部數據 2047.3.2 通用標識符 2057.3.3 安全性 2057.3.4 篩選、提煉 2077.3.5 歸檔結果 2087.3.6 指標 210第8章 非重復型分析 2118.1 非重復型數據 2118.1.1 內聯語境化 2138.1.2 分類法/本體處理 2148.1.3 自定義變量 2158.1.4 同形異義消解 2168.1.5 縮略語消解 2178.1.6 否定分析 2188.1.7 數字標注 2198.1.8 日期標注 2208.1.9 日期標准化 2208.1.10 列表的處理 2208.1.11 聯想式詞處理 2218.1.12 停用詞處理 2228.1.13 提取單詞詞根 2228.1.14 文檔元數據 2238.1.15 文檔分類 2238.1.16 相近度分析 2248.1.17 文本ETL中功能的先后順序 2258.1.18 內部參照完整性 2258.1.19 預處理、后處理 2268.2 映射 2278.3 分析非重復型數據 2298.3.1 呼叫中心信息 2298.3.2 醫療記錄 237第9章 作業分析1 242第10章 作業分析2 249第11章 個人分析 259第12章 復合式的數據架構 264詞匯表 268


相關書籍