1. 程式人生 > >Scikit-learn 釋出 0.20版本!新增處理缺失值、合併Pandas等亮點功能

Scikit-learn 釋出 0.20版本!新增處理缺失值、合併Pandas等亮點功能

640?wx_fmt=png

整理 | Jane

出品 | AI科技大本營

之前一直預告 Scikit-learn 的新版本會在 9 月釋出,在馬上就要結束的 9 月,我們終於迎來了 Scikit-learn  0.20。

此版本修復了大量的錯誤和功能,增強了 Scikit-learn 庫,改善了文件和示例。在此對 Scikit-learn 的貢獻者表示感謝!

新版本已經上線,小夥伴們是不是已經迫不及待想去試試了,在此之前,營長要特別提醒大家:Scikit-learn 0.20 是支援 Python 2.7 和 Python 3.4 的最後一個版本,從 Scikit-learn 0.21 開始,就只支援 Python 3.5 及更高版本的 Python。

Scikit-learn 作為基於 Python 語言的機器學習工具,一直備受關注。它是簡單高效的資料探勘與分析工具,建立在 Numpy、SciPy 和 Matplotlib 上,亦可在多種環境中重複使用,更重要的是 Scikit-learn 是開源的。

下面我們就來一起看一下新版本有哪些值得大家關注的亮點:

1.增加對資料科學用例的支援;如缺失值、類別變數、異類資料及分佈異常的特徵/目標。之前由 NaNs 表示的特徵缺失值,現在被按列預處理(如scalers)接受。每個特徵都無需考慮缺失值,包含缺失值的資料也可以被轉換。儘管缺少資料,新模組 impute 為學習提供了估算器。

2.ColumnTransformer 處理 Pandas 中不同特徵或不同列的情況。DataFrame 需要不同的預處理。字串或 Pandas 的 類別資料列都可以用 OneHotEncoder 或 OrdinalEncoder 進行編碼。

3.TransformedTargetRegressor 可以幫助把迴歸目標轉換為模型。PowerTransformer 和 KBinsDiscretizer 將加入 quantileTransformer 作為 非線性變換。

4.除此之外,還為幾個估計器(KMeans、Bayesian ridge 和 KernelDensity)增加了支援樣本權重的功能,並且改進了估計器( MLPRegressor, GradientBoostingRegressor 和 SGDRegressor)的停止標準。

5.伴隨此版本還首次公開發布了由 Joel Nothman 開發的通用術語和 API 列表( Glossary of Common Terms and API Elements),旨在幫助使用者和貢獻者更熟悉 Scikit-learn 中的術語和資源。

除了這些亮點外,還修復了很多 models 和 bug,大家可以自行檢視 Scikit-learn 0.20 更新說明。

Scikit-learn 0.20 新版本說明:

http://scikit-learn.org/dev/whats_new.html#version-0-20

核心術語表:

http://scikit-learn.org/dev/glossary.html#glossary

Scikit-learn 中文版本(還未更新至 0.20)

http://sklearn.apachecn.org/cn/0.19.0/

640?wx_fmt=png

好啦~到這裡大家就準備去更新你的 Scikit-learn 吧!在釋出新版本之前我們就給大家預告過一個教程(Scikit-learn 中 合併 Pandas 後的新教程),這次大家可以在新版本中直接試驗一下,有問題我們下面評論區再聊~

2018 AI開發者大會

拒絕空談,技術爭鳴

2018 AI開發者大會(AI NEXTCon)由中國IT社群CSDN與矽谷AI社群AICamp聯合出品的AI技術與產業年度盛會。多年經驗淬鍊,如今蓄勢待發:將有近百位中美頂尖AI專家、知名企業代表以及千餘名AI開發者齊聚北京,進行技術解讀和產業論證。我們只講技術,拒絕空談,誠摯邀請AI業內人士一起共鑄人工智慧新篇章!

2018 AI開發者大會首輪重磅嘉賓及深度議題現已火熱出爐,掃碼搶“鮮”看。國慶特惠,購票立享 折優惠!

640?wx_fmt=jpeg