大數據智能：互聯網時代的機器學習和自然語言處理技術 | 被動收入的投資秘訣 - 2024年9月

大數據智能：互聯網時代的機器學習和自然語言處理技術

作者：劉知遠等

出版社：電子工業

出版日期：2016年01月01日

ISBN：9787121276484

語言：繁體中文

本書是一本介紹大數據智能分析的科普書籍，旨在讓更多的人了解和學習互聯網時代的機器學習和自然語言處理技術，以期讓大數據技術更好地為我們的生產和生活服務。全書包括大數據智能基礎和大數據智能應用兩個部分，共8章。大數據智能基礎部分有三章：第1章以深度學習為例介紹大數據智能的計算框架；第2章以知識圖譜為例介紹大數據智能的知識庫；第3章介紹大數據背后的計算處理系統。大數據智能應用部分有5章：第4章介紹智能問答，第5章介紹主題模型，第6章介紹個性化推薦系統，第7章介紹情感分析與意見挖掘，第8章介紹面向社會媒體大數據的語言使用分析及應用。最后在本書的后記部分為讀者追蹤大數據智能的最新學術材料提供了建議。劉知遠，目前以項目負責人身份主持NSFC青年基金、博士后科學基金等多項研究項目，科研經費累計超過50萬元。同時以項目骨干身份參與實驗室多項973、863、NSFC重點和面上項目。承擔和參與項目列表如下：擔任項目負責人的項目 1.2014年-2016年，國家社會科學基金重大項目「基於大規模社交媒體的漢語模因傳播機理量化研究」子課題。 2.2013年-2015年，NSFC青年基金項目「基於協同語義計算的社交媒體信息擴散與可信性研究」。 3.2013年-2014年，清華大學-微軟聯合實驗室研究項目「Efficient Chinese Entity Linking for Large-scale Web Corpus to Heterogeneous Entity Networks」。擔任項目骨干的項目 1.2014年-2018年，973項目「面向三元空間的互聯網中文信息處理理論與方法」。 2.2012年-2015年，NSFC面上項目「關鍵詞抽取與社會標簽推薦相結合的中文文本主題詞自動標注方法研究」。 3.2012年-2016年，NSFC重點項目「篇章級中文語義分析理論與方法」。 4.2009年-2011年，NSFC面上項目「漢語復雜網絡的性質、結構、演化及其典型應用研究」。 5.2007年-2009年，863項目「大規模網絡圖文數據的語義分類和適度理解技術研究」。6.2011年-2013年，東芝公司研究項目「面向中文文檔分類的技術研發」。 7.2011年-2012年，Google公司研究項目「移動查詢助理和查詢結果摘要」。 8.2010年-2011年，Google公司研究項目「信息標注與社區發現的大規模算法研究」。 9.2009年-2011年，Google公司研究項目「針對流文本集的並行LDA」。

第1章深度學習——機器大腦的結構11.1概述31.1.1可以做酸奶的面包機——通用機器的概念31.1.2連接主義51.1.3用機器設計機器61.1.4深度網絡61.1.5深度學習的用武之地71.2從人腦神經元到人工神經元81.2.1生物神經元中的計算靈感81.2.2激活函數91.3參數學習101.3.1模型的評價111.3.2有監督學習111.3.3梯度下降法121.4多層前饋網絡131.4.1多層前饋網絡141.4.2后向傳播算法計算梯度161.5逐層預訓練171.6深度學習是終極神器嗎191.6.1深度學習帶來了什麼191.6.2深度學習尚未做到什麼201.7內容回顧與推薦閱讀211.8參考文獻21第2章知識圖譜——機器大腦中的知識庫232.1什麼是知識圖譜252.2知識圖譜的構建272.2.1大規模知識庫272.2.2互聯網鏈接數據282.2.3互聯網網頁文本數據292.2.4多數據源的知識融合292.3知識圖譜的典型應用302.3.1查詢理解（Query Understanding）302.3.2自動問答（Question Answering）322.3.3文檔表示（Document Representation）332.4知識圖譜的主要技術342.4.1實體鏈指（Entity Linking）342.4.2關系抽取（Relation Extraction）352.4.3知識推理（Knowledge Reasoning）372.4.4知識表示（Knowledge Representation）382.5前景與挑戰392.6內容回顧與推薦閱讀402.7參考文獻41第3章大數據系統——大數據背后的支撐技術433.1概述453.2高性能計算技術463.2.1超級計算機的組成473.2.2並行計算的系統支持483.3虛擬化和雲計算技術523.3.1虛擬化技術523.3.2雲計算服務543.4基於分布式計算的大數據系統553.4.1Hadoop生態系統553.4.2Spark613.4.3典型的大數據基礎架構633.5大規模圖計算633.5.1分布式圖計算框架643.5.2高效的單機圖計算框架653.6NoSQL663.6.1MongoDB簡介673.7內容回顧與推薦閱讀693.8參考文獻70第4章智能問答——智能助手是如何煉成的714.1概述734.2問答系統的主要組成774.3文本問答系統784.3.1問題理解784.3.2知識檢索814.3.3答案生成834.4社區問答系統844.4.1社區問答系統的結構854.4.2相似問題檢索864.4.3答案過濾864.5多媒體問答系統874.6大型問答系統案例：IBM沃森問答系統894.6.1沃森的總體結構894.6.2問題解析904.6.3知識儲備904.6.4檢索和候選答案生成914.6.5可信答案確定924.7內容回顧與推薦閱讀934.8參考文獻94第5章主題模型——機器的智能摘要利器975.1概述995.2主題模型出現的背景1005.3第一個主題模型潛在語義分析1025.4第一個正式的概率主題模型1045.5第一個正式的貝葉斯主題模型1055.6LDA的概要介紹1065.6.1LDA的延伸理解——主題模型廣義理解1095.6.2模型求解1115.6.3模型評估1125.6.4模型選擇：主題數目的確定1135.7主題模型的變形與應用1145.7.1基於LDA的模型變種1145.7.2基於LDA的典型應用1155.7.3一個基於主題模型的新浪名人話題排行榜應用1185.8內容回顧與推薦閱讀1225.9參考文獻123第6章個性化推薦系統——如何了解電腦背后的TA1296.1概述1316.1.1推薦系統的發展歷史1326.1.2推薦無處不在1336.1.3從千人一面到千人千面1336.2個性化推薦的基本問題1346.2.1推薦系統的輸入1356.2.2推薦系統的輸出1376.2.3個性化推薦的形式化1376.2.4推薦系統的三大核心問題1386.3典型推薦算法淺析1396.3.1推薦算法的分類1396.3.2典型推薦算法介紹1406.3.3基於矩陣分解的打分預測1466.3.4推薦的可解釋性1516.3.5推薦算法的評價1536.3.6我們走了多遠1566.4參考文獻160第7章情感分析與意見挖掘——計算機如何了解人類情感1657.1概述1677.2情感分析的主要研究問題1727.3情感分析的主要方法1757.3.1構成情感和觀點的基本元素1757.3.2情感極性與情感詞典1777.3.3屬性—觀點對1827.3.4情感分析1847.4主要的情感詞典資源1887.5內容回顧與推薦閱讀1897.6參考文獻190 第8章面向社會媒體大數據的語言使用分析及應用1958.1概述1978.2面向社會媒體的自然語言使用分析1978.2.1詞匯的時空傳播與演化1988.2.2語言使用與個體差異2008.2.3語言使用與社會地位2028.2.4語言使用與群體分析2038.3面向社會媒體的自然語言分析應用2068.3.1社會預測2068.3.2霸凌現象定量分析2078.4未來研究的挑戰與展望2088.5參考文獻209后記214國際學術組織、學術會議與學術論文214國內學術組織、學術會議與學術論文216如何快速了解某個領域的研究進展217

前言天才並不是自生自長在深林荒野里的怪物，是由可以使天才生長的民眾產生、長育出來的，所以沒有這種民眾，就沒有天才。——魯迅千淘萬漉雖辛苦，吹盡狂沙始到金。——[唐]劉禹錫大數據時代與人工智能在進入21 世紀前后，很多人預測這將會是怎樣的世紀。有人說這將是生命科學的時代，也有人說這將是知識經濟的時代，不一而足。現在15 年過去了，隨着互聯網的高速發展，大量的事實強有力地告訴我們，這必將是大數據的時代，是智能信息處理的黃金時代。自2012 年美國奧巴馬政府發布大數據研發倡議以來，關於大數據的研究與思考在全球蔚然成風，已經有很多專著面世，既有側重趨勢分析的，如舍恩伯格和庫克耶的《大數據時代》（盛楊燕和周濤教授譯），塗子沛的《大數據》和《數據之巔》，也有偏重技術講解的，如萊斯科夫等人的《大數據》（王斌教授譯）、張俊林的《大數據日知錄》、楊巨龍的《大數據技術全解》，等等。相信隨着大數據革命的不斷深入推進，會有更多的專著出版。

我用基金‧保險 3年賺到100萬：...