大數據是這樣計算的:XLab實例入門 | 被動收入的投資秘訣 - 2024年7月

大數據是這樣計算的:XLab實例入門

作者:楊旭
出版社:電子工業
出版日期:2016年04月01日
ISBN:9787121282317
語言:繁體中文
售價:99元

隨着大數據分析方法的發展,分析工具的改進,大數據分析的門檻降低了。基於大數據算法平台,數據分析師們已經不再被數據的「大」所困擾,可以輕松地探索大數據,挖掘大數據的價值。側重介紹大數據分析方法和算法的應用,適合對大數據分析感興趣的讀者閱讀。在內容的組織上,選取了10個不同領域的真實數據集,針對每個數據的特點,選擇適合的方法和算法,和讀者一起體驗數據探索、數據分析、建模預測的過程;通過實例計算的結果,讀者會加了解各種方法和算法的長處和局限。本書的實例都運行在大數據算法平台XLab上。適合對大數據分析感興趣的讀者閱讀,也可供數據分析師、算法工程師等專業人員參考使用。

第1章 入門 1.1 打開大數據之門 1.2 接觸大數據 1.3 數據初探索 1.4 進一步分析 1.5 訓練和預測第2章 簡介 2.1 主界面介紹 2.1.1 工具欄 2.1.2 數據列表 2.1.3 窗口管理器 2.1.4 工作界面 2.2 數據查看、運行 2.2.1 文本顯示 2.2.2 復制部分數據 2.2.3 顯示/隱藏列 2.3 腳本編輯、運行 2.4 如何獲得幫助信息 2.4.1 查看幫助手冊 2.4.2 界面上的幫助信息 2.4.3 腳本函數的幫助信息 2.5 執行SQL語句第3章 全球機場信息 3.1 數據可視化 3.2 統計分析 3.3 大中型機場的分析 3.4 海拔高度排行 3.5 數據的關聯關系第4章 股票價格 4.1 數據處理 4.2 數據探索 4.3 數據展開 4.3.1 組合使用基本函數進行變換 4.3.2 利用專門函數一步到位 4.4 各股趨勢比較 4.5 總體趨勢第5章 標准普爾500指數 5.1 數據類型轉換 5.2 各指標間的線性關系 5.3 按時間變化趨勢 5.4 數據對比第6章 鳶尾花數據集 6.1 屬性間的關系 6.2 聚類 6.2.1 K-Means聚類 6.2.2 EM聚類 6.3 二分類數據子集 6.3.1 使用訓練、預測窗體 6.3.2 調用訓練、預測腳本第7章 MovieLens數據集 7.1 數據變換 7.2 統計 7.3 排行榜 7.4 分類排行榜 7.5 影片關聯分析 7.6 屬性擴展第8章 汽車評價數據集 8.1 數據圖示化 8.2 對比分析 8.3 決策樹第9章 Twitter數據 9.1 用戶信息分析 9.2 用戶粉絲數量的情況 9.3 粉絲的情況 9.4 「粉」與「被粉」 9.5 信息傳播速度 9.6 哪些用戶更重要 9.6.1 粉絲最多的用戶 9.6.2 用戶排名第10章 隨機數據 10.1 數據生成 10.2 計算π值 10.3 中心極限定理第11章 新浪網頁數據 11.1 分詞 11.2 有區分度的單詞 11.3 選擇特征 11.3.1 卡方檢驗 11.3.2 信息增益 11.4 主題模型 11.4.1 潛在語義分析 11.4.2 概率潛在語義分析 11.4.3 LDA模型 11.5 單詞映射為向量第12章 2014年阿里巴巴大數據競賽 12.1 試題介紹 12.2 數據 12.3 思路 12.3.1 用戶和品牌的各種特征 12.3.2 二分類模型訓練 12.3.3 比賽考核目標 12.4 計算訓練數據集 12.4.1 原始數據划分 12.4.2 計算特征 12.4.3 數據預處理標識 12.4.4 用戶-品牌聯合特征 12.4.5 用戶特征 12.4.6 品牌特征 12.4.7 整合訓練數據的特征 12.4.8 計算標簽 12.5 二分類模型訓練 12.5.1 正負樣本配比 12.5.2 朴素貝葉斯算法 12.5.3 邏輯回歸算法 12.5.4 隨機森林算法 12.6 提交預測結果


相關書籍