什麼書會暢銷?數據比你知道得更多 研之有物 | 暢銷書 分析

數據分析+ 機器學習,探勘書市商機!誰在買書?買什麼書?這是規劃出版與行銷計畫時,需考量的因素,過去僅能用專業經驗判斷,現在透過數據分析與機器學習, ...中央研究院搜尋關閉首頁最新文章主題分類人文與社會科學數理科學生命科學專欄總覽創新研究社會熱議人物觀點轉載授權關於我們選單首頁最新文章主題分類人文與社會科學數理科學生命科學專欄總覽創新研究社會熱議人物觀點轉載授權關於我們訂閱電子報搜尋什麼書會暢銷?數據比你知道得更多「數據分析」結合「機器學習」,探勘書市商機誰在買書?買什麼書?這是規劃出版與行銷計畫時,需考量的因素,過去僅能用專業經驗判斷,現在透過資料分析與機器學習,可以用客觀的科學輔佐主觀的決策。

中央研究院資訊科學研究所陳昇瑋研究員,帶領資料洞察實驗室,找出書籍銷售數據中潛藏的商機。

資料科學:先搞懂如何發生,再讓它發生資料分析的四個階段:描述、診斷、預測、指示。

資料來源│Gartner     圖說改編│張語辰資料分析並非輸入數據、按下Enter鍵,就能得到立即性的結果,其工作至少可分為四個層次:1.描述:瞭解眼前發生了什麼,例如讀者是什麼樣貌2.診斷:用電腦來診斷眼前這件事為何發生,例如某些書籍的銷售為什麼特別好3.預測:未來會不會發生某件事,例如預測新書的銷售表現4.指示:如何促進某件事在未來發生,例如建置自動薦購系統或上架小工具,幫助提升新書銷售;或是幫書籍做更合適的命名以及封面設計資料分析跟淘金一樣困難,若沒有以正確的方式使用合適的工具,什麼價值也淘不出來。

分析原始資料就像在砂礫中淘金,雖然不用冒著日曬雨淋的痛苦,但需長時間與電腦折騰,結合數學、統計、機器學習、資料探勘與資料視覺化的專業,整理資料的邏輯,找出隱藏在數據中的含意。

若遇到非結構化的資料,在分析前尚需花額外的心力半自動或手動地將之轉換為結構化資料,才能使用分析技術來處理。

但正因資料分析可以找出隱藏在數據中的洞察、輔助人類的思維,是一門值得投資心力的科學。

中研院陳昇瑋團隊與博客來合作,將2014年12月至2016年3月間的匿名購書資料,結合政府資料開放平臺的數據,包含各個地區的綜合所得稅申報情況、教育程度、2016年總統大選得票數等,探討購書行為和讀者生活型態的相關性,將不同購書客群之間的「差異性」數據化,藉以回答誰在買書、買什麼書、什麼書會暢銷……等問題,進而將資料科學的思維引入出版界,讓出版人不用再只是憑著經驗及感覺選書及做書。

博客來各類購書讀者:性別x年齡(資料區間為2014年12月至2016年3月間)資料來源│陳昇瑋提供一樣米養百樣人,一種書也養百種人在規劃出版與行銷策略時,有一個盲點常被忽略:不能將同一個書籍類別的讀者,都視為同樣一個族群。

過往看銷售報表與會員資料時,經常會把讀者視為只有一種樣貌:例如財經讀者就是白領階級。

但陳昇瑋與團隊定義「差異式讀者樣貌分析」,一層一層深入子類別探勘資料,證實同一個書籍類別亦存在「多重客群」。

以「小說」這個大類別為例,愛看「小說」的不會只是同一群人,例如都是戴著眼鏡的文青。

同性愛小說和愛情小說的讀者主要是年輕人,而歷史武俠和文學研究的小說,讀者群以長輩為主。

若進一步深入分析武俠小說中的「金庸」這個子類別,更存在兩種主要客群:15歲以下的青少年和40~50歲的中年人。

這反應出一個課題:出版與行銷規劃需更分眾、更精準,無論是溝通的宣傳語言、購買的行銷版位,皆需考慮多重客群的存在。

博客來讀者樣貌差異:文學小說類別(資料區間為2014年12月至2016年3月間)資料來源│陳昇瑋提供從購書數據一窺社會現象世間男女情愛糾葛,李組長眉頭一皺發現事情並不單純,這種社會議題不只在電視劇或新聞中出現,也顯現於購書行為中。

在商業理財的類別,存在許多教導如何成功的書,數據顯示25歲以前偏好購買「生涯規劃」類的成功經驗書籍,而30歲之後改買如何「致富」的成功指導書籍,顯示30歲大關是人生覺悟的交叉點,與其花時間規劃生涯卻前途迷茫,快速致富還比較實際,但也可能因為30歲之後除了養自己也要養家人,肩膀壓力更重了。

另一方面,低收入族群偏向購買「投資理財」、「網路創業開店」的書籍,高收入族群則偏向購買「傳記」、「快樂學」的書籍,顯現M型社會下兩種不同人生方向與思維,有錢人需要學習如何快樂,而中產階級正朝著累積財富努力。

「外遇離婚」相關的書籍,會購買的族群大多年收入超過70萬,年收入越高,購買者越多,箇中含意不便多加著墨。

若將男性與女性消費者購買的書


常見投資理財問答


延伸文章資訊