1. 程式人生 > >Python常用第三方庫及簡介(持續更新)

Python常用第三方庫及簡介(持續更新)

Python 是世界上發展最快的程式語言之一。

它的發展有效的證明了自己在開發人員和跨行業的資料科學中的實用性。Python 及其機器學習庫的整個生態系統使全世界的使用者都願意選擇它。

Python 成功和受歡迎的原因之一是存在強大的庫,這些庫使 Python 極具創造力且執行快速。

然而,使用 Pandas、Scikit-learn、Matplotlib 等常見庫在解決一些特殊的資料問題時可能並不能完全滿足需要,本文將總結本文遇到的常用的Python第三方庫(持續更新)

1、WGET

提取資料,特別是從網路中提取資料是資料科學家的重要任務之一。Wget 是一個免費的工具,用於以非互動式方式從 Web 上下載檔案。它支援 HTTP、HTTPS 和 FTP 協議,通過 HTTP 代理進行檢索。由於它是非互動式的,即使使用者沒有登入,它也可以在後臺工作。所以,如果你想下載一個網站或一個頁面上的所有圖片,wget 會幫助你。

安裝方法:

$ pip install wget

2、Pendulum

對於那些在 python 中被處理datetimes困擾的人來說,Pendulum 是個好選擇。它是一個 Python 包,用於簡化 datetimes 操作。它是 Python「本機」類(native class)的代替。更多內容,請參閱文件:https://um.eustace.io/docs/# installation。

$ pip install pendulum

3、IMBALANCED-LEARN

 當每個類的樣本數量相等即平衡時,大多數分類演算法的工作效果最好。但現實生活中充滿了不平衡的資料集,這些資料集對機器學習的學習階段和後續預測都有影響。建立這個庫是為了解決這個問題。它與 scikit-learn 相容,並且是 scikit-learn-contrib 專案的一部分。下次遇到不平衡的資料集時,可以嘗試一下。

pip install -U imbalanced-learn
# or
conda install -c conda-forge imbalanced-learn

4、FLASHTEXT

在 NLP 任務中,清理文字資料通常需要替換句子中的關鍵詞或從句子中提取關鍵詞。通常,這樣的操作可以用正則表示式來完成,但是如果要搜尋的詞彙量過大,操作就會變得麻煩。Python 中基於 FlashText 演算法的 FlashText 模組,為這種情況提供了一個合適的替代方案。FlashText 最大的優點是搜尋詞數量不影響執行時長。更多相關資訊請見:https://flashtext.readthedocs.io/en/latest/#。

$ pip install flashtext

5、FUZZYWUZZY

涉及到字串匹配時,fuzzywuzzy 是一個非常有用的庫,可以很容易地實現諸如字串比較比率、token 比率等操作。對於匹配不同資料庫中的記錄也很方便。

$ pip install fuzzywuzzy

6、PYFLUX

時間序列分析是機器學習領域最常見的問題之一。PyFlux 是 Python 中為處理時間序列問題而建立的開源庫。該庫有一系列極好的時間序列模型,包括但不限於 ARIMA、 GARCH 和 VAR 模型。簡而言之,PyFlux 提供了一個時間序列建模的概率方法。值得嘗試。

$pip install pyflux

7、IPYVOLUME

交流結果是資料科學的一個基本方面。能夠將結果視覺化是一個很大的優勢。IPyvolume 是一個用於在 Jupyter notebook 中視覺化 3d 體積和字形(如 3d 散點圖)的 Python 庫,只需少量配置即可。然而,它目前還處於前 1.0 版。IPyvolume 的 volshow 之於 3d 陣列,就像 matplotlib 的 imshow 之於 2d 陣列一樣。更多相關資訊請見:https://ipyvolume.readthedocs.io/en/latest/?badge=latest。

Using pip

$ pip install ipyvolume

Conda/Anaconda

$ conda install -c conda-forge ipyvolume

8、DASH

Dash 是一個用於構建 web 應用程式的高效 Python 框架。它寫在 Flask、Plotly.js 和 React.js 之上,將下拉列表、滑塊和圖形等 UI 元素與你的分析性 Python 程式碼直接相連,無需 java。Dash 非常適合構建資料視覺化應用程式。然後這些應用程式可以在 web 瀏覽器中進行渲染。使用者指南請見:https://dash.plot.ly/。

$pip install dash
指定安裝:
$pip install dash==0.29.0    # The core dash backend

$pip install dash-html-components==0.13.2   # HTML components

$pip install dash-core-components==0.36.0    # Supercharged components

$pip install dash-table==3.1.3    # Interactive DataTable component (new!)

9、GYM

OpenAI 的 Gym 是一個開發和對比強化學習演算法的工具包。它兼容於任何數值計算庫,如 TensorFlow 或 Theano。Gym 庫是一個測試問題的集合,也被稱為環境——可以用它來計算你的強化學習演算法。這些環境有一個共享的介面,允許你寫通用演算法。

$pip install gym

參考文章: