量化投資:數據挖掘技術與實踐(MATLAB版) | 被動收入的投資秘訣 - 2024年7月

量化投資:數據挖掘技術與實踐(MATLAB版)

作者:卓金武
出版社:電子工業
出版日期:2015年05月01日
ISBN:9787121259265
語言:繁體中文

全書內容分為三篇。一篇(基礎篇)主要介紹數據挖掘與量化投資的關系,以及數據挖掘的概念、實現過程、主要內容、主要工具等內容。二篇(技術篇)系統介紹了數據挖掘的相關技術及這些技術在量化投資中的應用,主要包括數據的准備、數據的探索、關聯規則方法、數據回規方法、分類方法、聚類方法、預測方法、診斷方法、時間序列方法、智能優化方法等內容。三篇(實踐篇)主要介紹數據挖掘技術在量化投資中的綜合應用實例,包括統計套利策略的挖掘與優化、配對交易策略的挖掘與實現、數據挖掘在股票程序化交易中的綜合應用,以及基於數據挖掘技術的量化交易系統的構建。卓金武,中國量化投資學會專家委員會成員,Math Works中國區數據挖掘和量化投資總監,主要職責是向中國區MATLAB正版用戶提供數據挖 掘和量化投資解決方案。曾2次獲全國大學生數學建模競賽一等獎 (2003, 2004),1次獲全國研究生數學建模競賽一等獎 (2007);已主編專著兩部:《MATLAB在數學建模中的應用》(第一版和第二版)。

第一篇基礎篇 第1章緒論2 1.1量化投資與數據挖掘的關系2 1.1.1什麼是量化投資2 1.1.2量化投資的特點3 1.1.3量化投資的核心——量化模型5 1.1.4量化模型的主要產生方法——數據挖掘7 1.2數據挖掘的概念和原理8 1.2.1什麼是數據挖掘8 1.2.2數據挖掘的原理10 1.3數據挖掘在量化投資中的應用11 1.3.1宏觀經濟分析11 1.3.2估價13 1.3.3量化選股14 1.3.4量化擇時14 1.3.5算法交易15 1.4本章小結16 參考文獻16 第2章數據挖掘的內容、過程及工具17 2.1數據挖掘的內容17 2.1.1關聯17 2.1.2回歸19 2.1.3分類20 2.1.4聚類21 2.1.5預測22 2.1.6診斷24 2.2數據挖據過程25 2.2.1數據挖掘過程概述25 2.2.2挖掘目標的定義26 2.2.3數據的准備26 2.2.4數據的探索28 2.2.5模型的建立30 2.2.6模型的評估34 2.2.7模型的部署35 2.3數據挖掘工具36 2.3.1MATLAB36 2.3.2SAS37 2.3.3SPSS38 2.3.4WEKA40 2.3.5R41 2.3.6工具的比較與選擇42 2.4本章小結43 參考文獻44 第二篇技術篇 第3章數據的准備47 3.1數據的收集47 3.1.1認識數據47 3.1.2數據挖掘的數據源49 3.1.3數據抽樣50 3.1.4量化投資的數據源51 3.1.5從雅虎獲取交易數據53 3.1.6從大智慧獲取財務數據56 3.1.7從Wind獲取高質量數據57 3.2數據質量分析59 3.2.1數據質量分析的必要性59 3.2.2數據質量分析的目的60 3.2.3數據質量分析的內容60 3.2.4數據質量分析的方法61 3.2.5數據質量分析的結果及應用66 3.3數據預處理67 3.3.1為什麼需要數據預處理67 3.3.2數據預處理的主要任務68 3.3.3數據清洗69 3.3.4數據集成73 3.3.5數據歸約74 3.3.6數據變換74 3.4本章小結77 參考文獻77 第4章數據的探索78 4.1衍生變量79 4.1.1衍生變量的定義79 4.1.2變量衍生的原則和方法80 4.1.3常用的股票衍生變量80 4.1.4評價型衍生變量85 4.1.5衍生變量數據收集與集成87 4.2數據的統計88 4.2.1基本描述性統計89 4.2.2分布描述性統計90 4.3數據可視化90 4.3.1基本可視化方法91 4.3.2數據分布形狀可視化92 4.3.3數據關聯情況可視化94 4.3.4數據分組可視化95 4.4樣本選擇97 4.4.1樣本選擇的方法97 4.4.2樣本選擇應用實例98 4.5數據降維100 4.5.1主成分分析(PCA)基本原理100 4.5.2PCA應用案例:企業綜合實力排序103 4.5.3相關系數降維106 4.6本章小結107 參考文獻108 第5章關聯規則方法109 5.1關聯規則概要109 5.1.1關聯規則提出背景109 5.1.2關聯規則的基本概念110 5.1.3關聯規則的分類112 5.1.4關聯規則挖掘常用算法113 5.2Apriori算法113 5.2.1Apriori算法的基本思想113 5.2.2Apriori算法的步驟114 5.2.3Apriori算法的實例114 5.2.4Apriori算法的程序實現117 5.2.5Apriori算法的優缺點120 5.3FP—Growth算法121 5.3.1FP—Growth算法步驟121 5.3.2FP—Growth算法實例122 5.3.3FP—Growth算法的優缺點124 5.4應用實例:行業關聯選股法124 5.5本章小結126 參考文獻127 第6章數據回歸方法128 6.1一元回歸129 6.1.1一元線性回歸129 6.1.2一元非線性回歸133 6.1.3一元多項式回歸138 6.2多元回歸138 6.2.1多元線性回歸138 6.2.2多元多項式回歸142 6.3逐步歸回145 6.3.1逐步回歸的基本思想145 6.3.2逐步回歸步驟146 6.3.3逐步回歸的MATLAB方法147 6.4Logistic回歸149 6.4.1Logistic模型149 6.4.2Logistic回歸實例150 6.5應用實例:多因子選股模型的實現153 6.5.1多因子模型的基本思想153 6.5.2多因子模型的實現154 6.6本章小結157 參考文獻157 第7章分類方法158 7.1分類方法概要158 7.1.1分類的概念158 7.1.2分類的原理159 7.1.3常用的分類方法160 7.2K—近鄰(KNN)161 7.2.1K—近鄰原理161 7.2.2K—近鄰實例163 7.2.3K—近鄰特點166 7.3貝葉斯分類167 7.3.1貝葉斯分類原理167 7.3.2朴素貝葉斯分類原理167 7.3.3朴素貝葉斯分類實例170 7.3.4朴素貝葉斯特點170 7.4神經網絡171 7.4.1神經網絡的原理171 7.4.2神經網絡的實例173 7.4.3神經網絡的特點174 7.5邏輯斯蒂(Logistic)175 7.5.1邏輯斯蒂的原理175 7.5.2邏輯斯蒂的實例175 7.5.3邏輯斯蒂的特點175 7.6判別分析176 7.6.1判別分析的原理176 7.6.2判別分析的實例177 7.6.3判別分析的特點177 7.7支持向量機(SVM)178 7.7.1SVM的基本思想178 7.7.2理論基礎179 7.7.3支持向量機的實例182 7.7.4支持向量機的特點182 7.8決策樹183 7.8.1決策樹的基本概念183 7.8.2決策樹的建構的步驟184 7.8.3決策樹的實例187 7.8.4決策樹的特點188 7.9分類的評判188 7.9.1正確率188 7.9.2ROC曲線191 7.10應用實例:分類選股法193 7.10.1案例背景193 7.10.2實現方法194 7.11延伸閱讀:其他分類方法197 7.12本章小結197 參考文獻198 第8章聚類方法199 8.1聚類方法概要200 8.1.1聚類的概念200 8.1.2類的度量方法201 8.1.3聚類方法的應用場景203 8.1.4聚類方法的分類204 8.2K—means方法205 8.2.1K—means的原理和步驟205 8.2.2K—means實例1:自主編程206 8.2.3K—means實例2:集成函數208 8.2.4K—means的特點212 8.3層次聚類212 8.3.1層次聚類的原理和步驟212 8.3.2層次聚類的實例214 8.3.3層次聚類的特點217 8.4神經網絡聚類217 8.4.1神經網絡聚類的原理和步驟217 8.4.2神經網絡聚類的實例218 8.4.3神經網絡聚類的特點219 8.5模糊C—均值(FCM)方法219 8.5.1FCM的原理和步驟219 8.5.2FCM的應用實例220 8.5.3FCM算法的特點221 8.6高斯混合聚類方法222 8.6.1高斯混合聚類的原理和步驟222 8.6.2高斯聚類的實例224 8.6.3高斯聚類的特點225 8.7類別數的確定方法225 8.7.1類別的原理225 8.7.2類別的實例227 8.8應用實例:股票聚類分池229 8.8.1聚類目標和數據描述229 8.8.2實現過程229 8.8.3結果及分析231 8.9延伸閱讀233 8.9.1目前聚類分析研究的主要內容233 8.9.2SOM智能聚類算法234 8.10 本章小結235 參考文獻235 第9章預測方法236 9.1預測方法概要236 9.1.1預測的概念236 9.1.2預測的基本原理237 9.1.3量化投資中預測的主要內容238 9.1.4預測的准確度評價及影響因素239 9.1.5常用的預測方法240 9.2灰色預測241 9.2.1灰色預測原理241 9.2.2灰色預測的實例243 9.3馬爾科夫預測246 9.3.1馬爾科夫預測的原理246 9.3.2馬爾科夫過程的特性247 9.3.3馬爾科夫預測的實例248 9.4應用實例:大盤走勢預測252 9.4.1數據的選取及模型的建立252 9.4.2預測過程253 9.4.3預測結果與分析254 9.5本章小結255 參考文獻256 第10章診斷方法257 10.1離群點診斷概要257 10.1.1離群點診斷的定義257 10.1.2離群點診斷的作用258 10.1.3離群點診斷方法分類260 10.2基於統計的離群點診斷260 10.2.1理論基礎260 10.2.2應用實例262 10.2.3優點與缺點264 10.3基於距離的離群點診斷264 10.3.1理論基礎264 10.3.2應用實例265 10.3.3優點與缺點267 10.4基於密度的離群點挖掘267 10.4.1理論基礎267 10.4.2應用實例268 10.4.3優點與缺點270 10.5基於聚類的離群點挖掘270 10.5.1理論基礎270


相關書籍