大數據智能:數據驅動的自然語言處理技術 | 被動收入的投資秘訣 - 2024年10月
大數據智能:數據驅動的自然語言處理技術
本書是介紹大資料智慧、人工智慧技術的科普書籍,旨在讓更多人瞭解和學習互聯網時代的人工智慧技術——自然語言處理技術,讓大資料智慧技術更好地為我們服務。
全書包括大資料智慧基礎、技術和應用三部分,共14章。基礎部分有3章:第1章以深度學習為例介紹大資料智慧的計算框架;第2章以知識圖譜為例介紹大資料智慧的知識庫;第3章介紹大資料的計算處理系統。技術部分有6章,分別介紹機器翻譯、主題模型、情感分析與意見挖掘、智慧問答與對話系統、個性化推薦、機器寫作。應用部分有5章,分別介紹社交商業資料採擷、智慧醫療、智慧司法、智慧金融、計算社會科學。本書後記部分為讀者追蹤大資料智慧的學術資料提供了建議。
劉知遠,清華大學電腦系副教授、博士生導師。主要研究方向為自然語言處理和知識圖譜。2011年獲得清華大學博士學位,在人工智慧領域著名國際期刊和會議上發表相關論文60餘篇,Google Scholar統計引用超過4,000次。曾獲清華大學優秀博士論文、中國人工智慧學會優秀博士論文、清華大學優秀博士後、中文資訊學會青年創新獎,入選《麻省理工科技評論》“35歲以下科技創新35人”中國區榜單、中國科協青年人才托舉工程、CCF青年學者提升計畫。擔任中文資訊學會青年工作委員會副主任,中文資訊學會社會媒體處理專委會秘書長,ACL、EMNLP、COLING等著名國際會議領域主席。
崔安頎,薄言RSVP.ai聯合創始人、AI負責人,從事智慧對話的技術研發和商業化應用。2013年獲得清華大學博士學位。曾訪問美國卡耐基梅隆大學、新加坡國立大學,在加拿大滑鐵盧大學擔任博士後研究員。研究方向包括社交媒體情感分析、智慧問答、資料採擷等,發表相關著作20餘篇,積累了豐富的科研和商業應用經驗。參與研發薄言“輕語”企業助手平臺、“薄言豆豆”智慧型機器人以及語義解析、機器問答、對話閒聊等演算法引擎,將自然語言處理技術應用在智慧家居、企業助手、智慧客服等場景中。
張開旭,清華大學電腦系博士,研究方向為自然語言處理,THULAC工具草創者,SIGHAN2012中文分詞評測冠軍,百度搜索中文CRF模組代碼重構者,微信搜索DSSM模組開發者,騰訊圍棋AI“絕藝”研發者。現供職於騰訊,嘗試用BERT“搞事情”。
韓文弢,清華大學電腦系助理研究員。主要研究方向為大資料系統和類腦計算系統。2015年獲得清華大學博士學位,在電腦系統相關國際期刊和會議上發表相關論文10餘篇。曾獲得西貝爾學者、NOI2003金牌等榮譽和獎項。擔任CCFNOI科學委員會委員。
趙鑫,中國人民大學資訊學院副教授、博士生導師。主要研究方向為資料採擷和自然語言處理。2014年獲得北京大學博士學位,在資料採擷及其相關領域的著名國際期刊和會議上發表相關論文70余篇,曾獲得CIKM2017z佳短文提名及AIRS2017z佳論文獎,Google Scholar統計引用2,800餘次。曾獲微軟亞洲學者、北京大學優秀博士論文獎、中國人民大學傑出學者等榮譽稱號,入選第二屆CCF青年人才發展計畫。長期擔任國內外著名期刊和會議的評審。
蘇勁松,廈門大學資訊學院副教授、博士生導師。主要研究方向為自然語言處理和機器翻譯。2011年獲得中國科學院計算技術研究所博士學位,在人工智慧、自然語言處理領域的著名國際期刊和會議上發表相關論文60餘篇。擔任CCF中文資訊處理青年工作委員會常務委員,中文資訊學會青年工作委員會委員,福建省人工智慧學會理事,自然語言處理國際會議NLPCC2018、EMNLP2019領域主席。
張永鋒,羅格斯大學助理教授,主要研究方向為資訊檢索、推薦系統、機器學習及互聯網經濟。
嚴睿,北京大學助理教授、研究員、博士生導師,曾任百度公司資深研究員,華中師範大學與中央財經大學客座教授與校外導師。主持研發了多個開放領域對話系統和服務類對話系統,發表高水準研究論文100餘篇,擔任多個學術會議(KDD、IJCAI、SIGIR、ACL、WWW、AAAI、CIKM、EMNLP等)的(資深)程式委員會委員及審稿人。
湯步洲,哈爾濱工業大學(深圳)電腦科學與技術學院副教授、博士生導師。主要研究方向為自然語言處理、知識圖譜、醫學資訊處理、醫療支援決策。2011年獲得哈爾濱工業大學博士學位,畢業後先後赴美國范德堡大學和德州大學休士頓醫學科學中心以博士後研究員身份從事研究工作。在人工智慧、醫學資訊學領域著名國際期刊和會議上發表相關論文80餘篇,Google Scholar統計引用1,300餘次。多次在相關領域國際公開評測中獲得冠軍。
塗存超,清華大學電腦系博士後。主要研究方向為自然語言處理和法律智慧。2018年獲得清華大學博士學位。在人工智慧及自然語言處理著名國際期刊和會議上發表相關論文10餘篇。獲得清華大學優秀博士畢業生、清華大學優秀博士論文獎、北京市優秀博士畢業生等榮譽,入選“博士後創新人才支持計畫”。
丁效,哈爾濱工業大學助理研究員、碩士生導師。主要研究方向為人工智慧、自然語言處理、社會計算和事理圖譜。2016年獲得哈爾濱工業大學博士學位,已在AAAI、IJCAI、ACL、EMNLP、NAACL、COLING等人工智慧領域的著名國際期刊和會議上發表相關論文20餘篇。承擔國家自然科學基金青年項目等省部級以上項目四項,參與國家重大科技基礎設施建設專案、“新一代人工智慧”重大專案、國家自然科學基金重點專案等多個科研項目。榮獲全國青年人工智慧創新創業大會三等獎、第五屆全國青年計算語言學研討會優秀論文獎等榮譽。
1 深度計算——機器大腦的結構 1
1.1 驚人的深度學習 1
1.1.1 可以做優酪乳的麵包機:通用機器的概念 2
1.1.2 連接主義 4
1.1.3 用機器設計機器 5
1.1.4 深度網路 6
1.1.5 深度學習的用武之地 6
1.2 從人腦神經元到人工神經元 8
1.2.1 生物神經元中的計算靈感 8
1.2.2 啟動函數 9
1.3 參數學習 10
1.3.1 模型的評價 11
1.3.2 有監督學習 11
1.3.3 梯度下降法 12
1.4 多層前饋網路 14
1.4.1 多層前饋網路 14
1.4.2 後向傳播演算法計算梯度 16
1.5 逐層預訓練 17
1.6 深度學習是終極神器嗎 20
1.6.1 深度學習帶來了什麼 20
1.6.2 深度學習尚未做到什麼 21
1.7 內容回顧與推薦閱讀 . 22
1.8 參考文獻 23
2 知識圖譜——機器大腦中的知識庫 25
2.1 什麼是知識圖譜 25
2.2 知識圖譜的構建 28
2.2.1 大規模知識庫 28
2.2.2 互聯網連結資料 29
2.2.3 互聯網網頁文本資料 30
2.2.4 多資料來源的知識融合 31
2.3 知識圖譜的典型應用 32
2.3.1 查詢理解 32
2.3.2 自動問答 34
2.3.3 文檔表示 35
2.4 知識圖譜的主要技術 36
2.4.1 實體鏈指 36
2.4.2 關係抽取 37
2.4.3 知識推理 39
2.4.4 知識表示 40
2.5 前景與挑戰 42
2.6 內容回顧與推薦閱讀 45
2.7 參考文獻 45
3 大資料系統——大資料背後的支撐技術 47
3.1 大數據有多大 47
3.2 高性能計算技術 49
3.2.1 超級電腦的組成 49
3.2.2 平行計算的系統支援 51
3.3 虛擬化和雲計算技術 55
3.3.1 虛擬化技術 56
3.3.2 雲計算服務 58
3.4 基於分散式運算的大資料系統 59
3.4.1 Hadoop 生態系統 60
3.4.2 Spark 67
3.4.3 典型的大資料基礎架構 68
3.5 大規模圖計算 69
3.5.1 分散式圖計算框架 70
3.5.2 高效的單機圖計算框架 71
3.6 NoSQL 72
3.6.1 NoSQL 資料庫的類別 72
3.6.2 MongoDB 簡介 74
3.7 內容回顧與推薦閱讀 76
3.8 參考文獻 77
4 主題模型——機器的智慧摘要利器 78
4.1 由文檔到主題 78
4.2 主題模型出現的背景 80
4.3 第一個主題模型:潛在語義分析 81
4.4 第一個正式的概率主題模型 84
4.5 第一個正式的貝葉斯主題模型 85
4.6 LDA 的概要介紹 86
4.6.1 LDA 的延伸理解:主題模型廣義理解 . 90
4.6.2 模型求解 92
4.6.3 模型評估 93
4.6.4 模型選擇:主題數目的確定 94
4.7 主題模型的變形與應用 95
4.7.1 基於 LDA 的變種模型 95
4.7.2 基於 LDA 的典型應用 97
4.7.3 基於主題模型的新浪名人話題排行榜應用 100
4.8 內容回顧與推薦閱讀 104
4.9 參考文獻 105
5 機器翻譯——機器如何跨越語言障礙 110
5.1 機器翻譯的意義 110
5.2 機器翻譯的發展歷史 111
5.2.1 基於規則的機器翻譯 112
5.2.2 基於語料庫的機器翻譯 112
5.2.3 基於神經網路的機器翻譯 114
5.3 經典的神經網路機器翻譯模型 114
5.3.1 基於迴圈神經網路的神經網路機器翻譯 114
5.3.2 從卷積序列到序列模型 117
5.3.3 基於自注意力機制的 Transformer 模型 118
5.4 機器翻譯譯文品質評價 120
5.5 機器翻譯面臨的挑戰 121
5.6 參考文獻 123
6 情感分析與意見挖掘——機器如何瞭解人類情感 125
6.1 情感可以計算嗎 125
6.2 哪裡需要文本情感分析 . 126
6.2.1 情感分析的宏觀反映 127
6.2.2 情感分析的微觀特徵 128
6.3 情感分析的主要研究問題 129
6.4 情感分析的主要方法 132
6.4.1 構成情感和觀點的基本元素 132
6.4.2 情感極性與情感詞典 134
6.4.3 屬性-觀點對 141
6.4.4 情感極性分析 143
6.5 主要的情感分析資源 148
6.6 前景與挑戰 149
6.7 內容回顧與推薦閱讀 150
6.8 參考文獻 151
7 智慧問答與對話系統——智慧助手是如何煉成的 154
7.1 問答:圖靈測試的基本形式 154
7.2 從問答到對話 155
7.2.1 對話系統的基本過程 156
7.2.2 文本對話系統的常見場景 157
7.3 問答系統的主要組成 159
7.4 文本問答系統 161
7.4.1 問題理解 161
7.4.2 知識檢索 165
7.4.3 答案生成 169
7.5 端到端的閱讀理解問答技術 169
7.5.1 什麼是閱讀理解任務 170
7.5.2 閱讀理解任務的模型 172
7.5.3 閱讀理解任務的其他工程技巧 173
7.6 社區問答系統 174
7.6.1 社區問答系統的結構 174
7.6.2 相似問題檢索 175
7.6.3 答案過濾 177
7.6.4 社區問答的應用 177
7.7 多媒體問答系統 179
7.8 大型問答系統案例:IBM 沃森問答系統 181
7.8.1 沃森的總體結構 182
7.8.2 問題解析 182
7.8.3 知識儲備 183
7.8.4 檢索和候選答案生成 184
7.8.5 可信答案確定 184
7.9 前景與挑戰 186
7.10 內容回顧與推薦閱讀 186
7.11 參考文獻 187
8 個性化推薦系統——如何瞭解電腦背後的他 190
8.1 什麼是推薦系統 190
8.2 推薦系統的發展歷史 191
8.2.1 推薦無處不在 192
8.2.2 從千人一面到千人千面 193
8.3 個性化推薦的基本問題 194
8.3.1 推薦系統的輸入 194
8.3.2 推薦系統的輸出 196
8.3.3 個性化推薦的基本形式 197
8.3.4 推薦系統的三大核心問題 198
8.4 典型推薦演算法淺析 199
8.4.1 推薦演算法的分類 199
8.4.2 典型推薦演算法介紹 200
8.4.3 基於矩陣分解的打分預測 207
8.4.4 基於神經網路的推薦演算法 213
8.5 推薦的可解釋性 214
8.6 推薦演算法的評價 217
8.6.1 評分預測的評價 218
8.6.2 推薦列表的評價 219
8.6.3 推薦理由的評價 220
8.7 前景與挑戰:我們走了多遠 221
8.7.1 推薦系統面臨的問題 221
8.7.2 推薦系統的新方向 223
8.8 內容回顧與推薦閱讀 225
8.9 參考文獻 226
9 機器寫作——從分析到創造 228
9.1 什麼是機器寫作 228
9.2 藝術寫作 229
9.2.1 機器寫詩 229
9.2.2 AI 對聯 233
9.3 當代寫作 236
9.3.1 機器寫稿 236
9.3.2 機器故事生成 239
9.4 內容回顧 241
9.5 參考文獻 242
10 社交商業資料採擷——從用戶資料採擷到商業智慧應用 243
10.1 社交媒體平臺中的資料寶藏 . 243
10.2 打通網路社區的束縛:使用者網路社區身份的鏈指與融合 245
10.3 揭開社交用戶的面紗:用戶畫像的構建 247
10.3.1 基於顯式社交屬性的構建方法 247
10.3.2 基於網路表示學習的構建方法 249
10.3.3 產品受眾畫像的構建 250
10.4 瞭解用戶的需求:用戶消費意圖的識別 254
10.4.1 個體消費意圖識別 254
10.4.2 群體消費意圖識別 256
10.5 精准的供需匹配:面向社交平臺的產品推薦演算法 258
10.5.1 候選產品清單生成 258
10.5.2 基於學習排序演算法的推薦框架 259
10.5.3 基於使用者屬性的排序特徵構建 260
10.5.4 推薦系統的整體設計概覽 261
10.6 前景與挑戰 262
10.7 內容回顧與推薦閱讀 263
10.8 參考文獻 264
11 智慧醫療——資訊技術在醫療領域應用的結晶 265
11.1 智慧醫療的起源 265
11.2 智慧醫療的廬山真面目 267
11.3 智慧醫療中的人工智慧應用 268
11.3.1 醫療過程中的人工智慧應用 268
11.3.2 醫療研究中的人工智慧應用 272
11.4 前景與挑戰 273
11.5 內容回顧與推薦閱讀 275
11.6 參考文獻 275
12 智慧司法——智慧技術促進司法公正 276
12.1 智慧技術與法律的碰撞 . 276
12.2 智慧司法相關研究 . 277
12.2.1 法律智慧的早期研究 278
12.2.2 判決預測:虛擬法官的誕生與未來 279
12.2.3 文書生成:司法過程簡化 283
12.2.4 要素提取:司法結構化 285
12.2.5 類案匹配:解決一案多判 289
12.2.6 司法問答:讓機器理解法律 292
12.3 智慧司法的期望偏差與應用挑戰 293
12.3.1 智慧司法的期望偏差 293
12.3.2 智慧司法的應用挑戰 294
12.4 內容回顧與推薦閱讀 295
12.5 參考文獻 295
13 智慧金融——機器金融大腦 298
13.1 智能金融正當其時 298
13.1.1 什麼是智慧金融 298
13.1.2 智慧金融與金融科技、互聯網金融的異同 298
13.1.3 智能金融適時而生 299
13.2 智慧金融技術 301
13.2.1 大數據的機遇與挑戰 301
13.2.2 智慧金融中的自然語言處理 303
13.2.3 金融事理圖譜 307
13.2.4 智能金融中的深度學習 310
13.3 智慧金融應用 314
13.3.1 智能投顧 314
13.3.2 智能研報 315
13.3.3 智能客服 316
13.4 前景與挑戰 317
13.5 內容回顧與推薦閱讀 319
13.6 參考文獻 319
14 計算社會學——透過大資料瞭解人類社會 320
14.1 透過資料瞭解人類社會 320
14.2 面向社會媒體的自然語言使用分析 321
14.2.1 詞彙的時空傳播與演化 322
14.2.2 語言使用與個體差異 325
14.2.3 語言使用與社會地位 326
14.2.4 語言使用與群體分析 328
14.3 面向社會媒體的自然語言分析應用 330
14.3.1 社會預測 330
14.3.2 霸淩現象定量分析 331
14.4 未來研究的挑戰與展望 332
14.5 參考文獻 333
後記 334