【python資料分析(一)】Numpy基礎及基本應用
一.資料處理的一般流程:
資料收集—》資料預處理—》資料處理—》資料展示
資料收集:網路爬蟲,公開資料集,其他途徑收集的資料
資料預處理:歸一化,二值化,維度變換,去重,無效資料過濾
資料處理:資料排序,資料查詢,資料統計分析
展示:列表,圖表,動態互動圖形
二.numpy的優點
高效能,開源,陣列運算,讀寫迅速
三.numpy的定義
1.NumPy 是一個 Python 包。 它代表 “Numeric Python”。 它是一個由多維陣列物件和用於處理陣列的例程集合組成的庫。
2.使用NumPy,開發人員可以執行以下操作:
(1)陣列的算數和邏輯運算。
(2)傅立葉變換和用於圖形操作的例程。
(3)與線性代數有關的操作。 NumPy 擁有線性代數和隨機數生成的內建函式。
四.安裝
pip install numpy
五.有多快?
六.匯入numpy
import numpy as np
七.numpy的基礎型別—ndarray
#建立一個ndarray型別的陣列
data = np.array([1,2,3,4,5])
np.array()裡直接填一個由數字組成的列表
#建立一個二維的ndarray型別的陣列
data = np.array([[1,2,3],[4,5,6]])
#判斷ndarray的維度
data = np.array([[1,2,3],[4,5,6]])
print data.ndim
#瞭解ndarray各維度的長度
data = np.array([[1,2,3],[4,5,6]])
print data.shape
#建立一個全是0的陣列
data = np.zeros(10)
#建立一個全是1的二維陣列
data = np.ones((3,10))
#索引
data = np.arange(10)
print data[5]
# 切片
data = np.arange(10)
print data[3:6]
#變換維度
data = np.arange(10)
print data
print data.reshape(2,5)
#轉置
data = np.arange(10)
print data.reshape(2,5).T
#對ndarray陣列每個元素求平方根
data = np.arange(10)
print np.sqrt(data)
其他的常用方法:
#相加
data1 = np.array([1,3,5,7,9])
data2 = np.array([2,4,6,8,10])
print data1+data2
print np.add(data1,data2)
#求和
data= np.arange(10)
print data.sum()
#求平均值
data= np.arange(10)
print data.mean()
#求標準差
data= np.arange(10)
print data.std()
#排序
data = np.array([1,9,8,0,3])
data.sort()
#讀取txt檔案
data = np.genfromtxt(‘data.txt’,delimiter=‘,’)
print data
#陣列.astype(要轉換的型別)
data = np.genfromtxt(‘data.txt’,delimiter=‘,’)
print data.astype(int)
作業: