[問題] 時間序列資料的訓練集切法 | 時間序列 PTT

若打亂後再加以訓練, 其測試集(test)的MAE可以比未打亂的MAE少50%, 所以才有這樣的疑問, 我在書上及網路上看到的時間序列模型都是以INDEX[0:784]作為訓練集, ...PTT數位生活區menu即時熱門文章24小時內熱門文章最新文章熱門看板看板列表我的收藏最近瀏覽批踢踢PTT搜尋引擎PTT數位生活區/DataScience[問題]時間序列資料的訓練集切法+收藏分享看板DataScience作者avonasac0800(Adolph)時間2年前發表(2019/04/1122:29),2年前編輯推噓6(6推0噓30→)留言36則,3人參與,2年前最新討論串1/4(看更多)first_pagearrow_back_iosarrow_forward_ioslast_page說明作業系統:Win10問題類別:RNN/CNN使用工具:Python3.6+Keras/TensorFlow問題內容:各位大大晚安,小弟想請教,如果我的資料如下所示(共1,000筆,只是示意):indexdatevalue0201901015.11201901026.62201901034.83201901042.7..................9992021xxxx12而我要以過去20天的資料預測第21天的數值,如:INDEXXY0[x0,x1,x2...x19]x201[x1,x2,x3...x20]x21..................979[x979,x980...x998]x999假設我要拿總資料的80%來當作訓練集,請問我可以將INDEX打亂後再拿裡面的80%出來嗎?或者非得拿INDEX[0:784]當作訓練集呢?若打亂後再加以訓練,其測試集(test)的MAE可以比未打亂的MAE少50%,所以才有這樣的疑問,我在書上及網路上看到的時間序列模型都是以INDEX[0:784]作為訓練集,但它們都沒有提及原因,只有一個人說到"你總不會想拿那麼遠的資料做測試吧".如果我就是想這樣建模型,請問會有甚麼潛在的問題嗎?請各位大大不吝賜教,謝謝orz----發現不論哪個姑娘的名字,後頭加個".rmvb"或者".avi",看上去頓時就有了一種.....別樣的曖昧與風騷……#1EkG2-EJ(Gossiping)--※發信站:批踢踢實業坊(ptt.cc),來自:114.32.19.228※文章網址:https://www.ptt.cc/bbs/DataScience/M.1554992957.A.F64.html※編輯:avonasac0800(114.32.19.228),04/11/201922:30:20※編輯:avonasac0800(114.32.19.228),04/11/201922:30:34推choral04/1201:15,2年前,1F我過去的經驗是打亂的表現會比較好,不過也得看hiddens04/1201:15,1F→choral04/1201:15,2年前,2Fize和layernumber的搭配,這種應該一層就很有效了04/1201:15,2F→choral04/1201:24,2年前,3F我沒講到重點,RNN的bp只在[n1…n20]間執行,所以到下一04/1201:24,3F→choral04/1201:24,2年前,4F個index時,grad會重新計算,RNN不會記錄跨index的因果關04/1201:24,4F→choral04/1201:24,2年前,5F係,差別在於訓練時index打亂讓權重比較不會容易往某一個04/1201:24,5F→choral04/1201:24,2年前,6F趨向靠攏04/1201:24,6F→choral04/1201:26,2年前,7F如有錯誤還請大德們不吝指正感謝04/1201:26,7F謝謝合唱大的分享,您提到RNN不會紀錄跨index的關係,那如果我今天是以CNN來訓練這樣的資料(MAE又會少一個數量級)請問這樣子打亂後,模型是不是反而會學到不應該學到的東西呢?會這樣問是我將0:784打亂後訓練出的CNN模型,在INDEX784後的表現比baseline還要差勁的關係。

※編輯:avonasac0800(42.73.12.202),04/12/201908:55:17推choral04/1211:46,2年前,8F我猜測是learningrate同時也注意一下loss的起伏也許04/1211:46,8F→choral04/1211:46,2年前,9F有overfitting的可能性04/1211:46,9F推choral04/1211:52,2年前,10F有個測試方法你取訓練集最後100或200個來訓練,看看效果04/1211:52,10F→choral04/1211:52,2年前,11F是不是和整個訓練集差不多,如果是,代表這個dataset具有04/1211:52,11F→choral04/1211:52,2年前,12F短期時效性,遠期的資料根本用處不大04/1211:52,12F→choral04/1211:53,2年前,13F因此打亂的效果並不好04/1211:53,13F推yougigun04/1500:45,2年前,14F簡單來說打亂就是偷看答案而且不符合你想要預測模式04/1500:45,14F→yougigun04/1500:45,2年前,15F因為基本上你預測方式就是看歷史十筆預測第十一筆但是04/1500:45,15F→yougigun04/1500:45,2年前,16F為什麼你隨機打亂mse低就是因為model已經偷看過答案在04/1500:45,16F→yougigun04/1500:45,2年前,17F訓練時假設訓練到一組data是看第二筆倒地十一比預測04/1500:45,17F→yougigun04/1500:45,2年前,18F第十二筆然候你testdata好死不死因為隨機抽有一比是04/1500:45,18F→yougigun04/1500:45,2年前,19F看第一筆倒地十筆預測地十一比因為這組data跟train04/1500:45,19F→yougigun04/1500:45,2年前,20Fdata相似度極高預測的範圍基本不會差太多導致mse較04/1500:45,20F→yougigun04/1500:45,2年前,21F低但另一種切割方式造時間切兩半沒有這個問題04/1500:45,21F推shaform04/2000:33,2年前,22F你可以用[785:]當測試集,然後訓練集拿[0:784]中的04/2000:33,22F→shaform04/2000:33,2年前,23F80%,這樣就可以測試在同樣的測試集的情況下04/2000:33,23F→shaform04/2000:33,2年前,24F到底是拿不要打亂的80%([0:627])還是拿打亂的80%04/2000:33,24F→shaform04/2000:34,2年前,25F來訓練,會在同樣的測試集[784:]表現最好呢?04/2000:34,25F→shaform04/2000:35,2年前,26F嗯,不要打亂的80%也可能是[157:784],這樣跟測試集04/2000:35,26F→shaform04/2000:35,2年前,27F比較近一些04/2000:35,27F→shaform04/2000:37,2年前,28F假設這樣做之後打亂真的還表現比較好,就能反駁yougigun04/2000:37,28F→shaform04/2000:37,2年前,29F的偷看說了04/2000:37,29F推shaform04/2000:40,2年前,30F至於為何測試集一定要拿最後呢?因為你最後學完的模型04/2000:40,30F→shaform04/2000:40,2年前,31F拿出來用的時候本來就是拿來預測「未來」,所以本來就會04/2000:40,31F→shaform04/2000:40,2年前,32F是在所有訓練資料的後面04/2000:40,32F→yougigun04/2306:47,2年前,33Fs大你提的兩種方式在他的定義點都是屬於沒打亂我想04/2306:47,33F→yougigun04/2306:47,2年前,34F解釋的是為什麼打亂MSE會下降的沒打亂多再來不能因為下04/2306:47,34F→yougigun04/2306:47,2年前,35F降比較多就選擇打亂的方式訓練模型因為同你所說是預04/2306:47,35F→yougigun04/2306:47,2年前,36F測未來切資料應該要以時間點切04/2306:47,36F‣返回看板[DataScience]研討‣更多avonasac0800的文章文章代碼(AID):#1Shqyzza(DataScience)更多分享選項網址:分享至:facebookplurktwitter關閉廣告方便截圖討論串(同標題文章)以下文章回應了本文(最舊先):35Re:[問題]時間序列資料的訓練集切法sma10332年前,04/131921Re:[問題]時間序列資料的訓練集切法CharlieL2年前,04/14完整討論串(本文為第1之4篇):排序:最舊先|最新先|留言數636[問題]時間序列資料的訓練集切法avonasac08002年前,04/1135Re:[問題]時間序列資料的訓練集切法sma10332年前,04/1311Re:[問題]時間序列資料的訓練集切法tipsofwarren2年前,04/131921Re:[問題]時間序列資料的訓練集切法CharlieL2年前,04/14在新視窗開啟完整討論串(共4篇)open_in_newDataScience近期熱門文章610[問題]機器學習能不能用在編碼[DataScience]stayfool1周前,09/1024[問題]機器學習re-training[DataScience]ctr14周前,08/21214[問題]舊版GPU執行PyTorch問題[DataScience]ajul12301月前,08/16629[問題]為什麼現在新模型都很少割出testdata?[DataScience]ruthertw1月前,08/1412[問題]拿中文句子分析程式套古文的字典[DataScience]Neisseria1月前,08/07636[問題]深度強化學習(MADDPG)[DataScience]chhuang171月前,07/3012[問題]NLPGLoVe下載問題[DataScience]Master87871月前,07/2815[問題]如何得知深度學習樣本數足夠[DataScience]wre8802232月前,07/15更多近期熱門文章>>PTT數位生活區即時熱門文章621[新聞]蘋果iPhone13市售盒裝現身!沒附充電[MobileComm]olmtw1小時前,09/192032[心得]我買了三星的GalaxyFold3摺疊機[MobileComm]khpr10072小時前,09/19313[菜單]22k影音娛樂機[PC_Shopping]devil5551183小時前,09/19819[問題]關於iphone13pro訂購[iOS]GGininderYa4小時前,09/19-843[請益]9月17號註冊的假菁英10月能排到嗎?[PC_Shopping]wolfkao6小時前,09/19515[請益]求推薦30k內人體工學椅[PC_Shopping]brightwish8小時前,09/191835[問題]舊手機line備份問題(急)[MobileComm]jsulut8小時前,09/19711[問題]一些關於BTS的問題[iOS]c8907148小時前,09/19更多即時熱門文章>>‣返回看板[DataScience]研討‣更多avonasac0800的文章文章代碼(AID):#1Shqyzza(DataScience)關閉廣告方便截圖


常見投資理財問答


延伸文章資訊