R語言數據挖掘:實用項目解析 | 被動收入的投資秘訣 - 2024年7月

R語言數據挖掘:實用項目解析

作者:(印度)普拉迪帕塔·米什拉
出版社:機械工業
出版日期:2017年05月01日
ISBN:9787111565208
語言:繁體中文
售價:256元

本書是一本介紹使用R語言進行數據挖掘的指南書。既然是指南書,也就不要求讀者有多麼深厚的統計基礎以及豐富的編程經驗。本書將對所涉及的理論知識進行簡單的介紹,清晰地列出相關公式與使用技術時的注意要點,還配有大量代碼和圖片,以幫助讀者通過實踐加深對概念的理解。為了給讀者營造出一種清晰的數據挖掘項目流程感,本書按照「數據處理——數據探索——建立應用模型」這樣的順序組織編寫,以求做到簡潔而不失細節。此外,本書對數據處理中的棘手問題(譬如時間格式、缺失值的處理)均做出了詳細指導,且由於數據探索在項目中的重要性,亦從統計角度到可視化角度給出了講解。針對應用模型的建立,本書選取了現實中常見的模型進行介紹,由簡單的回歸模型開始,到應用廣泛的購物籃分析、推薦系統構建,再到較復雜的神經網絡模型。

譯者序前言第1章 使用R內置數據進行數據處理 1.1 什麼是數據挖掘 1.2 R語言引論 1.2.1 快速入門 1.2.2 數據類型、向量、數組與矩陣 1.2.3 列表管理、因子與序列 1.2.4 數據的導入與導出 1.3 數據類型轉換 1.4 排序與合並數據框 1.5 索引或切分數據框 1.6 日期與時間格式化 1.7 創建新函數 1.7.1 用戶自定義函數 1.7.2 內置函數 1.8 循環原理——for循環 1.9 循環原理——repeat循環 1.10 循環原理——while循環 1.11 apply原理 1.12 字符串操作 1.13 缺失值(NA)的處理 小結第2章 汽車數據的探索性分析 2.1 一元分析 2.2 二元分析 2.3 多元分析 2.4 解讀分布和變換 2.4.1 正態分布 2.4.2 二項分布 2.4.3 泊松分布 2.5 解讀分布 2.6 變量分段 2.7 列聯表、二元統計及數據正態性檢驗 2.8 假設檢驗 2.8.1 總體均值檢驗 2.8.2 雙樣本方差檢驗 2.9 無參數方法 2.9.1 Wilcoxon符號秩檢驗 2.9.2 Mann-Whitney-Wilcoxon檢驗 2.9.3 Kruskal-Wallis檢驗 小結第3章 可視化diamond數據集 3.1 使用ggplot2可視化數據 3.1.1 條狀圖 3.1.2 盒狀圖 3.1.3 氣泡圖 3.1.4 甜甜圈圖 3.1.5 地理制圖 3.1.6 直方圖 3.1.7 折線圖 3.1.8 餅圖 3.1.9 散點圖 3.1.10 堆疊柱形圖 3.1.11 莖葉圖 3.1.12 詞雲 3.1.13 鋸齒圖 3.2 使用 3.2.1 氣泡圖 3.2.2 用plotly畫條狀圖 3.2.3 用plotly畫散點圖 3.2.4 用plotly畫盒狀圖 3.2.5 用plotly畫極坐標圖 3.2.6 用plotly畫極坐標散點圖 3.2.7 極坐標分區圖 3.3 創建地理制圖 小結第4章 用汽車數據做回歸 4.1 回歸引論 4.1.1 建立回歸問題 4.1.2 案例學習 4.2 線性回歸 4.3 通過逐步回歸法進行變量選取 4.4 Logistic回歸 4.5 三次回歸 4.6 懲罰回歸 小結第5章 基於產品數據的購物籃分析 5.1 購物籃分析引論 5.1.1 什麼是購物籃分析 5.1.2 哪里會用到購物籃分析 5.1.3 數據要求 5.1.4 前提假設/要求 5.1.5 建模方法 5.1.6 局限性 5.2 實際項目 5.2.1 先驗算法 5.2.2 eclat算法 5.2.3 可視化關聯規則 5.2.4 實施關聯規則 小結第6章 聚類電商數據 6.1 理解客戶分類 6.1.1 為何理解客戶分類很重要 6.1.2 如何對客戶進行分類 6.2 各種適用的聚類方法 6.2.1 K均值聚類 6.2.2 層次聚類 6.2.3 基於模型的聚類 6.2.4 其他聚類算法 6.2.5 聚類方法的比較 參考文獻 小結第7章 構建零售推薦引擎 7.1 什麼是推薦 7.1.1 商品推薦類型 7.1.2 實現推薦問題的方法 7.2 前提假設 7.3 什麼時候采用什麼方法 7.4 協同過濾的局限 7.5 實際項目 小結第8章 降維 8.1 為什麼降維 8.2 降維實際項目 8.3 有參數法降維 參考文獻 小結第9章 神經網絡在醫療數據中的應用 9.1 神經網絡引論 9.2 理解神經網絡背后的數學原理 9.3 用R語言實現神經網絡 9.4 應用神經網絡進行預測 9.5 應用神經網絡進行分類 9.6 應用神經網絡進行預測 9.7 神經網絡的優缺點 參考文獻 小結


相關書籍