Python3資料分析入門實戰_01 寫在開頭 +Numpy 入門

阿新 • • 發佈：2018-12-07

Python3資料科學入門與實戰

寫在開頭，關於Python，我所瞭解的只是基礎語法和一些簡單類庫的使用，此次開篇教程學習目的是為了去了解關於資料分析、相關類庫的學習使用。

多說一句，關於使用Python進行資料分析是不是需要對Python程式設計語法非常精通的問題。我想說：精通Python語法程式設計固然是好事，但是剛需是使用它做資料分析，而資料分析只需要對相關資料分析庫上手學習即可，像Numpy、Pandas等這些庫。我也知道Python可以做Web開發，輕量級的Flask、Django框架也很好用。但是現狀是做資料分析，所以對Python高階程式設計技巧、語法底層研究等操作大可不必，基礎語法上手就好，剩下的就是去主要學習這些資料分析庫的靈活使用了。

Anaconda：資料科學平臺(Platform)

conda：Package和Environment管理
- Environment管理：
  - 建立env：conda create --name envname python=3.4
  - 啟用env：(source) activate envname
  - 退出env：(source) deactivate envname
  - 刪除env：conda remove --name envname --all
- Package管理：
  - 安裝package：conda install numpy
  - 檢視環境中已安裝package：conda list -n envname
  - 刪除package：conda remove -n envname numpy

Jupyter Notebook：資料科學常用IDE

資料科學五個最佳Python庫

Numpy：
- 矩陣、快速高效、向量數學運算
- 高效索引Index，不需要迴圈
- 開源跨平臺
Scipy：
- 依賴於Numpy
- 專為科學和工程設計
- 常用科學計算：線型代數、傅立葉變換、訊號影象處理
Pandas
- 依賴於Numpy，結構化資料分析利器
- 高階資料結構：Time-Series、DataFrame、Panel
- 強大的資料索引和處理能力
Matplotlib
- Python 2D繪圖領域使用最廣泛的套件
- 通過mplot3d可以繪製3D圖
Scikit-learn
- 機器學習Python模組，建立在Scipy之上
- 提供常用機器學習演算法：聚類、迴歸
- 簡單易學的API介面
- TensorFlow：機器學習框架，Google 開源

Numpy

關於矩陣：
- 矩形的陣列，即二維陣列
- 向量：指的是1xN、Nx1的矩陣
- 標量：指的是1x1的矩陣
- 陣列：N維的陣列，矩陣的延伸
- 特殊矩陣：
  - 全0全1矩陣
  - 單位矩陣：NxN階矩陣，主對角線元素均為1
    - 任何矩陣與單位矩陣做相乘運算，結果均為原矩陣。(類比：任何數乘1均為任何數)
- 矩陣運算：
  - 加減法：行和列對應元素相加減
  - 乘法：
    - 陣列乘法(點乘)：陣列乘法(點乘)是對應元素之間做乘法
    - 矩陣乘法：
      - 設A為MxP的矩陣，B為PxN的矩陣，MxN的矩陣C為矩陣A、B的乘積，記為C=AB。

Numpy入門

陣列建立和訪問

import numpy as np
# create from list
list_1 = [1, 2, 3, 4]
list_2 = [5, 6, 7, 8]
# 通過列表建立陣列
array_1 = np.array(list_1) // array([1, 2, 3, 4])
array_2 = np.array([list_1, list_2]) // array([[1, 2, 3, 4], [5, 6, 7, 8])
# 返回陣列的shape
array_2.shape // (2, 4) 兩行四列陣列
# 返回陣列大小
array_2.size // 8   元素大小為8
# 返回陣列元素資料型別
array_2.dtype // dtype('int32') 
# 陣列元素資料型別不一致時，返回資料元素型別中精確度最高的資料型別
array_3 = np.array([[1.0, 2, 3], [4.0, 5, 6]])
array_3.dtype // dtype('float64')
# 通過arange進行陣列建立
array_4 = np.arange(1, 10, 2) // 新增步長為2  array([1, 3, 5, 7, 9])
# 建立一維全0矩陣
np.zeros(5) // array([0., 0., 0., 0., 0.])
# 建立2x3 全0矩陣
np.zeros([2, 3]) // array([[0., 0., 0.], [0., 0., 0.]])
# 建立2x2單位矩陣 主對角線為1 其他元素為0
np.eye(2) // array([[1., 0.], [0., 1.]])
# 訪問元素
a = np.arange(1, 10) // array([1, 2, 3, 4, 5, 6, 7, 8, 9])
# 索引訪問
a[0] // 1
# 子陣列訪問
a[1:5] // array([2, 3, 4, 5])
# 二維陣列元素訪問
b = np.array([[1, 2, 3], [4, 5, 6]]) // array([[1, 2, 3], [4, 5, 6]])
# 索引訪問
b[1][0] // 4 (b[1, 0]也可以訪問到)
# 切片操作
c = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# 行：0-2行(不含2), 列：1列開始
c[:2, 1:] //  array([[2, 3], [5, 6]])

快速建立陣列

# randn 建立長度為10的一維陣列，且陣列元素滿足正態分佈
np.random.randn(10)
-------------------------------
array([-0.33449844, -0.1490416 , -0.27399399,  1.0561671 , -0.40881947,
-1.14842854, -0.57158135, -0.02221695,  0.11761491,  0.61686979])
-------------------------------
# randint 返回元素限制10以內，大小為2x3的矩陣
np.random.randint(10, size=(2, 3))
-------------------------------
array([[0, 6, 4],
[5, 0, 8]])
-------------------------------
# 生成長度為10的陣列，也可以變換為多維陣列 reshape() 方法
np.random.randint(10, size=(10)) // array([3, 5, 2, 3, 0, 2, 5, 1, 8, 2])
# 變換為多維陣列 reshape() 方法
np.random.randint(10, size=(10)).reshape(2, 5)
-------------------------------
array([[8, 4, 3, 1, 0],
[8, 6, 2, 2, 2]])
-------------------------------

陣列運算

初始化陣列

a = np.random.randint(10, size=(20)).reshape(4, 5)
-----------------------------
array([[4, 6, 9, 6, 4],
[7, 0, 7, 1, 5],
[5, 7, 5, 5, 4],
[9, 1, 7, 3, 2]])
-----------------------------
b = np.random.randint(10, size=(20)).reshape(4, 5)
-----------------------------
array([[5, 3, 6, 9, 1],
[2, 1, 9, 2, 0],
[8, 2, 5, 7, 9],
[9, 4, 0, 9, 7]])
-----------------------------

a + b

array([[ 9,  9, 15, 15,  5],
[ 9,  1, 16,  3,  5],
[13,  9, 10, 12, 13],
[18,  5,  7, 12,  9]])

a - b

array([[-1,  3,  3, -3,  3],
[ 5, -1, -2, -1,  5],
[-3,  5,  0, -2, -5],
[ 0, -3,  7, -6, -5]])

a * b

array([[20, 18, 54, 54,  4],
[14,  0, 63,  2,  0],
[40, 14, 25, 35, 36],
[81,  4,  0, 27, 14]])

a / b ：由於陣列b 中存在元素0。因此，對上述結果做了INF處理，並報出警告。

RuntimeWarning: divide by zero encountered in true_divide

array([[0.8 , 2. , 1.5 , 0.66666667, 4. ],
[3.5  , 0.  , 0.77777778, 0.5 , inf],
[0.625 , 3.5 , 1. , 0.71428571, 0.44444444],
[1.   , 0.25 , inf, 0.33333333, 0.28571429]])

快速建立矩陣

mat() 進行矩陣建立

np.mat([[1, 2, 3], [4, 5, 6]])
-----------------------------
matrix([[1, 2, 3],
[4, 5, 6]])
-----------------------------

陣列向矩陣轉換

np.mat(a)
-----------------------------
matrix([[4, 6, 9, 6, 4],
[7, 0, 7, 1, 5],
[5, 7, 5, 5, 4],
[9, 1, 7, 3, 2]])
-----------------------------

矩陣運算

初始化矩陣

A = np.mat(a)
-----------------------------
matrix([[4, 6, 9, 6, 4],
[7, 0, 7, 1, 5],
[5, 7, 5, 5, 4],
[9, 1, 7, 3, 2]])
-----------------------------
B = np.mat(b)
-----------------------------
matrix([[5, 3, 6, 9, 1],
[2, 1, 9, 2, 0],
[8, 2, 5, 7, 9],
[9, 4, 0, 9, 7]])
-----------------------------

A + B

matrix([[ 9,  9, 15, 15,  5],
[ 9,  1, 16,  3,  5],
[13,  9, 10, 12, 13],
[18,  5,  7, 12,  9]])

A - B

matrix([[-1,  3,  3, -3,  3],
[ 5, -1, -2, -1,  5],
[-3,  5,  0, -2, -5],
[ 0, -3,  7, -6, -5]])

A * B ：矩陣乘法(滿足：mp – pn 相乘為 m*n矩陣)

AA = np.mat(np.random.randint(10, size=(20)).reshape(4, 5))
-----------------------------------------------------------
matrix([[1, 4, 3, 6, 5],
[7, 6, 4, 9, 0],
[4, 4, 2, 1, 8],
[0, 1, 6, 6, 2]])
-----------------------------------------------------------
BB = np.mat(np.random.randint(10, size=(20)).reshape(5, 4))
-----------------------------------------------------------
matrix([[6, 8, 2, 2],
[0, 7, 4, 8],
[7, 1, 6, 5],
[9, 9, 6, 3],
[2, 4, 8, 9]])
-----------------------------------------------------------

AA * BB

matrix([[ 91, 113, 112, 112],
[151, 183, 116, 109],
[ 63, 103, 106, 125],
[100,  75,  92,  74]])

陣列常用函式

陣列初始化

a = np.random.randint(10, size=(20)).reshape(4, 5)
--------------------------------------------------
array([[2, 2, 1, 2, 4],
[9, 0, 7, 9, 8],
[6, 7, 6, 8, 6],
[2, 8, 1, 4, 8]])
--------------------------------------------------

元素去重保留唯一值

np.unique(a)
--------------------------------------------------
array([0, 1, 2, 4, 6, 7, 8, 9])
--------------------------------------------------

陣列求和(以列為單位)

sum(a)
--------------------------------------------------
array([19, 17, 15, 23, 26])
--------------------------------------------------

具體行的和

sum(a[0])
--------------------------------------------------
11
--------------------------------------------------

具體列的和

sum(a[:,0])
--------------------------------------------------
19
--------------------------------------------------

最值

a.max() # 陣列最值
max(a[0]) # 具體行最值
...

陣列的input和output

Python的pickle模組實現了基本的資料序列和反序列化。
通過pickle模組的序列化操作能夠將程式中執行的物件資訊儲存到檔案中去，永久儲存。
通過pickle模組的反序列化操作，能夠從檔案中建立上一次程式儲存的物件。
基本介面：
- pickle.dump(obj, file, [,protocol]) 將物件obj儲存到檔案file中去。
- pickle.load(file) 從file中讀取一個字串，並將它重構為原來的Python物件。

舉個栗子：

匯入需要的庫
```
import pickle
import numpy as np
```

陣列初始化

x = np.arange(10)
----------------------
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
----------------------

輸出檔案

# 建立檔案物件，檔名為：x.pkl，讀寫方式為：只寫
f = open('x.pkl', 'wb')
# 將陣列物件儲存到檔案物件中
pickle.dump(x, f)
# 檢視檔案, Linux、Mac系統下命令為 !ls
!dir

輸入檔案

# 建立檔案物件，檔名為：x.pkl，讀寫方式為：只讀
f = open('x.pkl', 'rb')
# 從檔案物件中讀取字串，並將其轉換為陣列物件
pickle.load(f)

Numpy 中的 save 方法

# 將陣列物件儲存成檔案，字尾名為 .npy
np.save('one_array', x)

Numpy 中的 load 方法

# 讀取檔案
np.load('one_array.npy')

Numpy 中的 savez 方法：壓縮檔案

# 初始化陣列y
y = np.arange(20)
----------------------------------
array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 
15, 16,17, 18, 19])
----------------------------------
# 壓縮檔案
np.savez('two_array.npz', a=x,b=y)
# 讀取壓縮檔案
np.load('two_array.npz')
# 按索引讀取陣列內容
c['a']
----------------------------------
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
----------------------------------
c['b']
----------------------------------
array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 
15, 16,17, 18, 19])
----------------------------------

Python3資料分析入門實戰_01 寫在開頭 +Numpy 入門

Python3資料科學入門與實戰寫在開頭，關於Python，我所瞭解的只是基礎語法和一些簡單類庫的使用，此次開篇教程學習目的是為了去了解關於資料分析、相關類庫的學習使用。多說一句，關於使用Python進行資料分析是不是需要對Python程式設計語法非常精通的問題。我想說：精通

Python3資料分析入門實戰_04 玩轉Pandas 中

Apply進行資料預處理案例 Demo # 資料讀入 df = pd.read_csv('J:/csv/apply_demo.csv') # 採用Series為DataFrame新增新列 'A' s1 = Series(['a'] * 7978) df['A'] = s1 --

Python3資料分析與挖掘實戰

課程目標：讓學員從零基礎開始全面系統地掌握Python資料分析與挖掘的相關知識，並能夠勝任Python3資料分析及資料分析與挖掘中級工程師以上的工作，學完後，能夠讓學員掌握Python3基礎知識、編寫Python爬蟲進行網際網路資料採集、Python大資料分析與挖掘等方面的知

Python3資料分析與挖掘建模實戰

第1章課程介紹本章首先介紹本課程是什麼，有什麼特色，能學習到什麼，內容如何安排，需要什麼基礎，是否適合學習這門課程等。然後對資料分析進行概述，讓大家對資料分析的含義和作用有一個整體的認知，讓大家對自己接下來要做的事情，有一個基本的概念與瞭解。… 第2章資料

學習大資料分析要什麼基礎，零基礎入門ok嗎？

CDA資料分析師原創作品身處21世紀的今天，資料分析行業急劇發展，越來越多的企業已經意識到大資料分析的重要性和發展潛力，同時越來越多的傳統行業公司開始轉型升級，開始引入並發展專屬自己的大資料分析部門及崗位。由此也滋生了越來越多的人想進入大資料領域——或許你是即將畢業的大學生，基於自己的文科背景擔憂自己

Python資料分析學習筆記（1）numpy模組基礎入門

numpy模組可以進行高效的資料處理，並提供了陣列的支援，很多模組都依賴他，比如pandas、scipy、matplotlib等，因此這個模組是基礎。（1）匯入： import numpy （2）建立一維和二維陣列： #建立一維陣列 x=numpy.

福布斯系列之資料分析思路篇 | Python資料分析專案實戰

福布斯每年都會發布福布斯全球上市企業2000強排行榜（Forbes Global 2000），這個排行榜每年釋出的時候，國內外總有新聞會熱鬧的討論一番，但很少見到比較全面的分析。因此才有了這樣一個想法，蒐集近些年每年釋出的排行榜，做一個進一步的分析。在準

Python資料分析案例實戰

第一課：電力竊漏電使用者識別系統案例實戰第二課：公共交通運營資料分析案例實戰第三課：商圈分析案例實戰第四課：客戶價值分析案例實戰第五課：基於使用者行為分析的定向網路廣告投放案例實戰第六課：電子商務網站使用者行為分析與推薦系統案例實戰第七課：文字規律發現案例實戰第八課：電商產

Python3網路爬蟲快速入門實戰解析（一小時入門 Python 3 網路爬蟲）

一前言三爬蟲實戰優美桌布下載 1實戰背景2實戰進階3整合程式碼愛奇藝VIP視訊下載 1實戰背景2實戰升級3編寫程式碼四總結一前言強烈建議：請在電腦的陪同下，閱讀本文。本文以實戰

python資料分析與實戰、把dataframe的某一行新增到另一個dataframe

補上昨天沒時間發的一篇文章最近在學習張良均老師的python資料分析與實戰昨天在練習用拉格朗日插值法的時候遇到了一個問題，書中程式碼清單4-1中給出的程式碼無法將缺失值所在的行在插值前後展現出來，而是直接將整個data print出來，這樣不利於根據具體

jQuery EasyUI快速入門實戰教程（一）-入門

jquery javascript easyui 1、jQuery EasyUI概述jQuery EasyUI是一組基於jQuery的UI插件集合體，而jQuery EasyUI的目標就是幫助web開發者更輕松的打造出功能豐富並且美觀的UI界面。開發者不需要編寫復雜的javascript，也不需要

《Python資料分析常用手冊》一、NumPy和Pandas篇

　　　　　　‘first‘　　　　　　按值在原始資料中出現的順序排名　　C.DataFrame 　　　　DataFrame是一個表格型的資料結構，它含有一組有序的列，每列可以是不同的值型別（數值、字串、布林值等）。DataFrame既有行索引也有列索引，它可以被看做由Series組成的字典（共用同一個索引

學習Python資料分析隨手筆記【三】numpy陣列的函式ix_()

今天我去圖書館借了一本Python DataAnalysis的書那今天來說一個關於numpy庫的內容。當然課本給出的是著名的lena圖片。不過在pycharm上執行的時候發現它報錯了。隨即就去查看了scipy的檔案搜尋了半天。原來在新版本的scipy中已經將lena移除，不

2018年最新Python3資料科學入門與實戰教程

課程簡介：這是一個數據驅動的時代，想要從事機器學習、人工智慧、資料探勘等前沿技術，都離不開資料跟蹤，本課程通過Numpy、Pandas進行資料科學計算，通過Seaborn、 Matplotlib進行資料圖形化展示；從實戰角度出發，讓你在資料科學領域邁出重要的一步，開啟Data Scien

入門Python資料分析最好的實戰專案

北京二手房房價分析與預測目的：本篇給大家介紹一個數據分析的初級專案，目的是通過專案瞭解如何使用Python進行簡單的資料分析。資料來源：博主通過爬蟲採集的鏈家全網北京二手房資料（後臺回覆二手房便可獲取）。

Python3資料科學入門與實戰

4-1 DataFrame的簡單數學計算 4-2 Series和DataFrame的排序 4-3 重新命名Dataframe的index 4-4 DataFrame的merge操作 4-5 Concatenate和Combine 4-6 通過apply進行資料預處理 4-7 通過去重進

【Python3實戰Spark大資料分析及排程】Spark Core 課程筆記（1）

目錄架構注意事項 Spark Core: Spark 核心進階 Spark 核心概念 Application User program built on Spark. Consists of a driver progr

[TensorFlow深度學習入門]實戰九·用CNN做科賽網TibetanMNIST藏文手寫數字資料集準確率98%+

[TensorFlow深度學習入門]實戰九·用CNN做科賽網TibetanMNIST藏文手寫數字資料集準確率98.8%+ 我們在博文，使用CNN做Kaggle比賽手寫數字識別準確率99%+，在此基礎之上，我們進行對科賽網TibetanMNIST藏文手寫數字資料集訓練，來驗證網路的正確性。

入門Python資料分析最好的實戰專案（二）建模篇

作者：xiaoyu 微信公眾號：Python資料科學知乎：python資料分析上一篇和大家分享了一個入門資料分析的一個小專案北京二手房房價分析，連結如下：資料分析實戰—北京二手房房價分析文章在sf釋出之後看到有不少感興趣的朋友給我點了贊，感謝

入門Python資料分析最好的實戰專案（一）分析篇

作者：xiaoyu 微信公眾號：Python資料科學知乎：python資料分析非經作者允許，禁止任何商業轉載。目的：本篇給大家介紹一個數據分析的初級專案，目的是通過專案瞭解如何使用Python進行簡單的資料分析。資料來源：博主通過爬蟲採集的鏈家全網北京二手

Python3資料分析入門實戰_01 寫在開頭 +Numpy 入門

Python3資料科學入門與實戰

寫在開頭，關於Python，我所瞭解的只是基礎語法和一些簡單類庫的使用，此次開篇教程學習目的是為了去了解關於資料分析、相關類庫的學習使用。

Anaconda： 資料科學平臺(Platform)

Jupyter Notebook：資料科學常用IDE

資料科學五個最佳Python庫

Numpy

相關推薦

Anaconda：資料科學平臺(Platform)