1. 程式人生 > >9大Python最常用的數據分析庫,在2018都做了哪些更新?

9大Python最常用的數據分析庫,在2018都做了哪些更新?

包括 有用 樣式 代數 scrip 小部件 很快 scipy 圖庫

技術分享圖片

1. NumPy

技術分享圖片

一般我們會將科學領域的庫作為清單打頭,NumPy是該領域的主要軟件庫之一。它旨在處理大型的多維數組和矩陣,並提供了很多高級的數學函數和方法,因此可以用它來執行各種操作。

在過去一年,開發團隊對該庫進行了大量改進。除了錯誤修復和解決兼容性問題之外,關鍵的變更還包括樣式改進,即NumPy對象的打印格式。此外,一些函數現在可以處理任意編碼的文件,只要這些編碼受Python支持。

2. SciPy

技術分享圖片

另一個科學計算核心庫SciPy,基於NumPy而構建,並擴展了NumPy的功能。SciPy的主要數據結構是多維數組,使用Numpy實現。該庫提供了一些用於解決線性代數、概率論、積分計算等任務的工具。

SciPy通過與不同的操作系統進行持續集成的方式帶來了重大改進,比如新的函數和方法,更重要的是——最新的優化器。此外,開發團隊對很多新的BLAS和LAPACK函數進行了包裝。

3.Pandas

技術分享圖片

Pandas是一個Python庫,提供了高級的數據結構和各種分析工具。該庫的一大特色是能夠將相當復雜的數據操作轉換為一兩個命令。Pandas提供了很多內置的方法,用於分組、過濾和組合數據,還提供了時間序列功能。所有這些方法的執行速度都很快。

新發布的pandas庫還提供了數百個新特性、功能增強、錯誤修復和API變更。這些改進與Pandas對數據進行分組和排序的能力有關,支持自定義類型操作。

4. StatsModels

技術分享圖片

Statsmodels是一個Python模塊,為統計數據分析提供了很多可能性,例如統計模型估計、運行統計測試等。你可以借助它來實現很多機器學習方法,並探索不同的繪圖可能性。

該庫在不斷演化,帶來了更多的可能性。今年帶來了時間序列改進和新的計數模型GeneralizedPoisson、零膨脹模型和NegativeBinomialP,以及新的多變量方法因子分析、MANOVA和ANOVA的重復測量。

可視化

5. Matplotlib

技術分享圖片

Matplotlib是一個用於創建二維圖表和圖形的低級庫。你可以用它來構建各種圖表,從直方圖和散點圖到非笛卡爾坐標圖。此外,很多流行的繪圖庫都為Matplotlib預留了位置,可與Matplotlib結合在一起使用。

該庫在繪圖樣式方面做出了很多變更,如顏色、尺寸、字體、圖例等。例如,坐標軸圖例的自動對齊和對色盲患者更友好的色環。

技術分享圖片

6. Seaborn

Seaborn實際上是基於matplotlib庫構建的高級API。它為處理圖表提供了更恰當的默認選項。此外,它還提供了一組豐富的可視化圖庫,包括時間序列、聯合圖和小提琴圖等復雜的類型。

Seaborn的更新主要是問題修復。不過,FacetGrid(或PairGrid)與增強的交互式matplotlib後端之間的兼容性有所改進,為可視化添加了參數和選項。

技術分享圖片

7. Plotly

技術分享圖片

Plotly是一個可以幫助你輕松構建復雜圖形的流行庫。該庫適用於交互式Web應用程序,它提供了很多很棒的可視化效果,包括輪廓圖形、三元圖和3D圖表。

這個庫在持續地增強和改進,帶來新的圖形和特性,支持“多鏈接視圖”、動畫和串擾集成。

8. Bokeh

Bokeh庫使用JavaScript小部件在瀏覽器中創建交互式和可伸縮的可視化圖形。該庫提供了多種圖形、樣式、鏈接圖形式的交互能力、添加小部件、定義回調以及更多有用的功能。

Bokeh改進的交互式功能值得稱贊,例如可旋轉的分類刻度標簽,以及小型的縮放工具和自定義工具提示字段增強。

技術分享圖片

9. Pydot

Pydot是一個用於生成面向復雜圖形和非面向復雜圖形的庫。它作為面向Graphviz的一個接口,使用Python編寫。我們可以借助它來顯示圖形的結構,這在構建神經網絡和基於決策樹的算法時經常會用到。

技術分享圖片

9大Python最常用的數據分析庫,在2018都做了哪些更新?