1. 程式人生 > >這可能是AI、機器學習和大資料領域覆蓋最全的一份速查表

這可能是AI、機器學習和大資料領域覆蓋最全的一份速查表

https://mp.weixin.qq.com/s?__biz=MjM5ODE1NDYyMA==&mid=2653390110&idx=1&sn=b3e5d6e946b719d08b67d9ebf88283fe&chksm=bd1c3d0d8a6bb41bf05a8ccc9f375528c7c5e4223b190acc9593082b50e17855d2ccdd0e8ac2&mpshare=1&scene=23&srcid=0110mg1nBdOAslm4Www2cliB#rd

本文是根據 Stefan Kojouharov 發表在 Medium 上的文章整理而成的一份人工智慧、神經網路、機器學習、深度學習和大資料方面的速查表。為了便於查詢與使用,本文對每個主題進行了分類,希望可以對各位的工作有所幫助。

01 神經網路

02 神經網路圖

圖 3a:神經網路相關概念速查表(上)

 

圖 3b:神經網路相關概念速查表(下)

03 機器學習概覽

 

04 機器學習:Scikit-learn 演算法

如果在你的專案中出現了一些未知問題,那麼這份機器學習速查表可以幫助你快速地找到出問題的那部分。下面這個流程圖可以幫助你快速的瀏覽文件並快速導航,這可以幫助你更深入的理解問題的原因,同時為你提供對應的解決方案。

圖 5:機器學習速查表

05 Scikit-Learn

Scikit-learn(原 scikits.learn) 是基於 Python 的一款免費機器學習庫。它涵蓋了很多 分類、迴歸 以及 聚類 演算法,包括 支援向量機、隨機森林、梯度加速、k-means 聚類 以及 DBSGAN 聚類演算法。該庫可以與 Python 的科學計算庫 Numpy 以及 SciPy 互操作。

圖 6:Scikit-Learn 速查表

06 機器學習:演算法速查表

這份來自微軟 Azure 的機器學習速查表可以幫助你在解決方案的預分析過程中快速選擇合適的機器學習演算法。使用這份速查表時,你可以根據自己的目的和資料特徵快速地選擇對應的演算法。

圖 7:機器學習速查表

07 Python 的資料科學相關功能

圖 8:Python 資料科學速查表

圖 9:大資料速查表

08 TensorFlow

2017 年 5 月,Google 釋出了第二代 TPU(張量計算單元),同時在 谷歌計算引擎 上提供了 TPU 叢集。第二代 TPU 提供了高達每秒 180 萬億次的浮點數運算能力,由 64 個 TPU 組成的叢集可以提供每秒 1.15 億億次的浮點數運算能力。

圖 10:TensoFlow 速查表

09 Keras

2017 年,Google 的 TensorFlow 團隊決定在 TensorFlow 的核心庫中新增 Keras 支援。

Ghollet 解釋說,Keras 是按介面來設計的,而不是一個端到端的機器學習框架。它代表著更高階、更直觀的使用方式,這使得配置神經網路變得更為簡單,使用者不需要再去了解複雜的後端科學計算庫。

圖 11:Keras 速查表

10 Numpy

Numpy 旨在作為 Python 的 CPython 參考實現,它是一個非優化的位元組碼直譯器。針對這個 Python 版本編寫的一些數學演算法通常比相同程式碼的編譯版本慢一些。

Numpy 通過提供多維陣列和函式,以及在陣列上的高效運算子來解決運算緩慢的問題,這需要需要重寫一些程式碼,主要是使用 NumPy 的一些內迴圈。

圖 12:Numpy 速查表

11 Pandas

"Pandas" 這個名稱來源於術語 "面板資料", 這是多維結構化資料集的一個計量經濟學術語。

圖 13:Pandas 速查表

12 資料清洗

“資料清洗”正逐漸滲入流行文化。在 2017 年的電影《金剛:骷髏島》中,由 Marc Evan Jackson 扮演的角色 Steve Woodward 就是一位資料清洗師。

圖 14:資料清洗速查表

圖 15:Pandas 資料清洗速查表

13 使用 dplyr 和 tidyr 進行資料清洗

圖 16a:基於 dplyr 和 tidyr 的資料清洗速查表

圖 16b:基於 dplyr 和 tidyr 的資料清洗速查表

14 Scipy

Scipy 是基於 Numpy 陣列物件的一個科學計算庫,它是 NumPy 全家桶(包括 Matplotlib、Pandas、SymPy 等工具包)的一部分,也是科學計算庫的一個擴充套件集。

這個 Numpy 全家桶與其他應用程式(如 MATLAB、GNU Octave 和 Scilab)有很多共同的使用者。NumPy 全家桶有時也被稱為 SciPy 全家桶。

圖 17:Scipy 速查表

15 Matplotlib

Matplotlib 是一個面向 Python 程式語言及其數學計算庫 NumPy 的繪圖工具庫。Matplotlib 提供了面向物件的 API,它使用通用的 GUI 工具包(例如 Tkinter、wxPython、Qt 或者 GTK+)。

雖然也有基於狀態機的程式介面“pylab“(像 OpenGL),其設計與 MATLAB 非常相似,但是大家卻不提倡使用它。SciPy 使用了 matplotlib。

pyplot 是 matplotlib 中的一個模組,提供類似 MATLAB 的介面。按照設計,Matplotlib 可以跟 MATLAB 一樣使用,你可以在 Python 中使用它,並且是免費的。

圖 18:Matplotlib 速查表

16 資料視覺化

圖 19:資料視覺化速查表

圖 20:ggplot 速查表

17 PySpark

圖 21:Pyspark 速查表

18 Big-O(時間複雜度)

圖 22:Big-O 演算法速查表

圖 23:Big-O 演算法複雜度表

圖 24:不同資料結構實現演算法的時間複雜度

圖 25:不同的陣列排序演算法時間複雜度

關於作者:Stefan 是 Chatbot's Life 的創始人,這是一家聊天機器人媒體和諮詢公司。到目前為止,Chatbot's Life 每月的瀏覽量超過了 150k,成了線上學習 Bots&AI 的優質資源。同時,Chatbot's Life 還為多家頂級機器人企業提供諮詢工作,例如 Swelly、Instavest、OutBrain 和 NearGrop。

原文:https://becominghuman.ai/cheat-sheets-for-ai-neural-networks-machine-learning-deep-learning-big-data-678c51b4b463