「如何成為資料科學家」大哉問1：當資料科學家數學是不是要 ... | 統計微積分關係

首先，一定要有基本的微積分基礎，不論你是做統計估計或是機器學習，基本上在作的都是「函數逼近」(functional approximation)，因此要了解 ...Skiptocontent實在是太多朋友想要知道「如何成為一名資料科學家？」雖然我是一名菜鳥，但大概算是個容易捕捉到的人(?)，所以我想稍微對幾個時常被問到的問題作回答。

其實資料科學的領域很廣，隨著資料型態不同，應用情境與需要的技巧也會差很多，因此我只能根據我自己的情況來跟大家分享我對於這些問題的想法。

如果你有想問的問題，歡迎留言給我，我一周會出一個問題的分享喔！本周問題：當資料科學家數學是不是要很好？雖然(我是真的覺得)重點是分析邏輯、對資料的敏感度、對特定領域的了解，但認真說實話，我覺得這題答案是對，數學是資料科學家很重要的武器，所以對數學絕對不能排斥。

當然，如果只是用套件去做，這些數學可能不是很重要，但很多時候如果不曉得使用的模型及理論是什麼，一來可能是分析的結果不會很好，二來是可能會因為模型誤用而造成很大的風險。

所以我覺得還是要有一定的數學底子，才能學會更多有用的模型，並能了解這些模型的限制。

基本技能：微積分與線性代數我想在更深入去討論一下資料科學家會用到那些數學工具。

首先，一定要有基本的微積分基礎，不論你是做統計估計或是機器學習，基本上在作的都是「函數逼近」(functionalapproximation)，因此要了解這些資料分析模型，微積分是必備工具。

但說真的，以應用面來看，你只要會多變數的微分與積分、解多變數方程式的極大極小值、多變數的泰勒展式、級數與函數的收斂，這樣就很足夠了！高等微積分雖然有些幫助，但我覺得並不是必要的。

另一個一定要會的工具是線性代數，包括：向量空間、內積空間、矩陣的秩(rank)、特徵值與特徵向量(eigenvalue&eigenvector)、spectraldecomposition、奇異值分解(singularvaluedecomposition)、正交基底(orthogonalbasis)與正交投影(orthogonalprojection)。

我覺得線性代數的重要性可能超過微積分，因為大部分的資料科學家都是用「矩陣」在思考統計或機器學習模型，也會用矩陣去想實際的資料，因此線性代數非常重要。

常用技能：機率論與統計方法機率論的基礎，機率論不是指排列組合或古典機率，而是要了解隨機變數(randomvariable)、聯合分配(jointdistribution)、大數法則(lawoflargenumber)、中央極限定理(centrallimittheorem)。

機率論是處理「隨機性」最有效的工具，幾乎所有的資料分析方法都是建立在機率論的理論框架，比如說：機器學習建立在「empiricalriskminimization」以及「concentrationofmeasure」上，增強學習(AI很重要的一環)是建立在「Markovdecisionprocess」上，統計是建立在「randomsample」上，全部都需要機率理論的幫忙。

至於統計的部分，我倒覺得是不一定，尤其是在deeplearning這個領域，統計扮演的角色比重不高。

不過通常很好的資料科學家，就算是電腦科學家出身的，也對統計有一定的著墨，比如說計算機圖學、通訊理論、機器學習、網絡資料分析、文字探勘與資訊檢索、信號處理，其實都滿多統計方法跟架構被高度應用。

最重要的統計方法一個是「最大概似法」(maximumlikelihoodestimation)、一個是EM(expectation-maximization)演算法、一個是「迴歸分析」(regressionanalysis)。

其他我自己工作有使用過的統計方法包括：多變量分析、時間序列分析、實驗設計。

常用技能：機器學習最後不得不談這幾年超盛行的機器學習了！就我學習機器學習的經驗來說，撇去程式能力不提，如果你上面的技能都很熟悉，那麼機器學習的模型與演算法就不算太困難！當然，有一些特殊的方法，比如說tree相關的演算法，需要對樹狀資料結構有一定的認識，但整體而言，機器學習會用到的數學工具不外乎就是以上提到的微積分、線性代數、機率論、MLE等。

小結：這些知識要去哪裡學？其實我覺得對於任何領域來說，數學都是會得越多，之後運用的彈性就越大，因此我還有補一些其他的知識，像是隨機過程、傅立葉分析、最佳化、壓縮感知等。

大四剛轉統計

常見投資理財問答

延伸文章資訊
《統計學》 | 統計微積分關係
一、某班級同學同時參加微積分及管理學兩科目考試，兩科目成績平均數及標準差 ... 了解10歲兒童每週看電視時間（X）與其體重過重程度（Y）間之關係，隨機蒐.
「如何成為資料科學家」大哉問1：當資料科學家數學是不是要 ... | 統計微積分關係
首先，一定要有基本的微積分基礎，不論你是做統計估計或是機器學習，基本上在作的都是「函數逼近」(functional approximation)，因此要了解 ...
如何學好統計學？ @ 晨晰統計部落格新站（統計、SPSS、BIG ... | 統計微積分關係
蘇教授大學時期就讀歷史系，求學期間完全沒有碰過統計學，在美國念社會學碩士的第一學期才第一次與統計學照面。在那一學期裡，即把從來沒有接觸過的微積分、 ...
微積分基本定理 | 統計微積分關係
微積分基本定理描述了微積分的兩個主要運算──微分和積分之間的關係。 ... 定理的第二部分，稱為微積分第二基本定理或牛頓-萊布尼茨公式，表明某函數的定 ...
機率統計入門 | 統計微積分關係
雖有人認為機率與統計，這類數學所需的前置準. 備不多，因此 ... 不少人認為，大學裡統計比微積分難教、難學。 ... 二隨機變數間之關係，也可能需估計。 ◇統計裡 ...
統雄-微積分神掌易筋經：微積分觀念精華與實作/ Calculus ... | 統計微積分關係
當前社會科學人才培養過程，自小就與數學脫節，進入大學後常有統計、卻沒有微積分 ... 微積分基本定理描述了兩個主要微分和積分之間的關係，稱為第一、或第二 ...
大學微積分有多重要？獨家分析微積分重要性-龍門轉學考 | 統計微積分關係
只要是就讀理工學院和商管學院、微積分必定是你大一「必修」且「最 ... 常態出現在四個常用抽樣分配單元內(ex：分配關係推導、順序統計量等).
Re: [問題] 修統計學的基礎要多好? | 統計微積分關係
初統來說微積分要知道普通微分、指/對數微分、普通積分、指/對數積分、連鎖律這些大體來說就足夠了其他都都是以前的數學概念，如函數、 ...
機器學習中的數學基礎（微積分和概率統計） | 統計微積分關係
一、微積分與概率論1、微分學：中國教科書中通常首先學習導數，例如 ... 的統計關係，理論上和X與Y間的統計關係相同，但它們的協方差卻差了.
靜宜大學企管系『統計學』講義—微積分基本概念一、基本函數 ... | 統計微積分關係
統計學—微積分基本概念1/17. 靜宜大學企管系『統計學』講義—微積分基本概念. 2006 年10 月17 ... x 表示將x 連乘n 次，廣義後，n 不是整數也沒有關係。請區別 ...

「如何成為資料科學家」大哉問1：當資料科學家數學是不是要 ... | 統計 微積分 關係

常見投資理財問答

「如何成為資料科學家」大哉問1：當資料科學家數學是不是要 ... | 統計微積分關係