這5個Python庫太難搞!每位數據科學家都應該瞭解|諾禾 ... | Statsmodels 教學

每位數據科學家都曾對此猶豫不決,但Statsmodels是其中必須得瞭解的一個選項,它能實現Sci-kit Learn等標準機器學習庫中沒有的重要演算法(如:ANOVA ...技術文章»這5個Python庫太難搞!每位數據科學家都應該瞭解|諾禾這5個Python庫太難搞!每位數據科學家都應該瞭解|諾禾2020-08-1214:24:05Pthon之所以能成爲世界上最受歡迎的程式語言之一,與其整體及其相關庫的生態系統密不可分,這些強大的庫讓Python保持着生命力和高效力。

作爲數據科學家免不了會使用一些Python庫用於專案和研究,除卻那些常見的庫,還有很多庫能夠增強你的數據科學研究能力。

本文將介紹五大難懂的Python庫,理解起來並不容易,但搞定它們你就能功力大增!1.Scrapy每位數據科學家的專案都是從處理數據開始的,而網際網路就是最大、最豐富、最易存取的數據庫。

但可惜的是,除了通過pd.read_html函數來獲取數據時,一旦涉及從那些數據結構複雜的網站上抓取數據,數據科學家們大多都會毫無頭緒。

Web爬蟲常用於分析網站結構和儲存提取資訊,但相較於重新構建網頁爬蟲,Scrapy使這個過程變得更加容易。

Scrapy用戶介面非常簡潔使用感極佳,但其最大優勢還得是效率高。

Scrapy可以非同步發送、排程和處理網站請求,也就是說:它在花時間處理和完成一個請求的同時,也可以發送另一個請求。

Scrapy通過同時向一個網站發送多個請求的方法,使用非常快的爬行,以最高效的方式迭代網站內容。

除上述優點外,Scrapy還能讓數據科學家用不同的格式(如:JSON,CSV或XML)和不同的後端(如:FTP,S3或local)導出存檔數據。

這5個Python庫太難搞!每位數據科學家都應該瞭解圖源:unsplash2.Statsmodels到底該採用何種統計建模方法?每位數據科學家都曾對此猶豫不決,但Statsmodels是其中必須得瞭解的一個選項,它能實現Sci-kitLearn等標準機器學習庫中沒有的重要演算法(如:ANOVA和ARIMA),而它最有價值之處在於其細節化處理和資訊化應用。

例如,當數據科學家要用Statsmodels算一個普通最小二乘法時,他所需要的一切資訊,不論是有用的度量標準,還是關於係數的詳細資訊,Statsmodels都能提供。

庫中實現的其他所有模型也是如此,這些是在Sci-kitlearn中無法得到的。

OLSRegressionResultsDep.Variable:LotteryR-squared:0.348Model:OLSAdj.R-squared:0.333Method:LeastSquaresF-statistic:22.20Date:Fri,21Feb2020Prob(F-statistic):1.90e-08Time:13:59:15Log-Likelihood:-379.82No.Observations:86AIC:765.6DfResiduals:83BIC:773.0DfModel:2CovarianceType:nonrobustcoefstderrtP>|t|[0.0250.975]Intercept246.434135.2336.9950.000176.358316.510Literacy-0.48890.128-3.8320.000-0.743-0.235np.log(Pop1831)-31.31145.977-5.2390.000-43.199-19.424Omnibus:3.713Durbin-Watson:2.019Prob(Omnibus):0.156Jarque-Bera(JB):3.394Skew:-0.487Prob(JB):0.183Kurtosis:3.003Cond.No.702.對於數據科學家來說,掌握這些資訊意義重大,但他們的問題是常常太過信任一個自己並不真正理解的模型。

因爲高維數據不夠直觀,所以在部署這些數據之前,數據科學家有必要深入瞭解數據與模型。

如果盲目追求像準確度或均方誤差之類的效能指標,可能會造成嚴重的負面影響。

Statsmodels不僅具有極其詳細的統計建模,而且還能提供各種有用的數據特性和度量。

例如,數據科學家們常會進行時序分解,它可以幫助他們更好地理解數據,以及分析何種轉換和演算法更爲合適,或者也可以將pinguoin用於一個不太複雜但非常精確的統計函數。

這5個Python庫太難搞!每位


常見投資理財問答


延伸文章資訊