讀書筆記--python資料視覺化--001_讀取CSV檔案資料
#-*- coding: UTF-8 -*-
'''
#################################################
# Author : 餘歡
# Date : Dec 26, 2015 2:25:39 PM
#company : 南京師範大學--大資料實驗室
# description :
#################################################
'''
from fileinput import filename
from _csv import reader, Dialect
'''
1 開啟檔案
2 首先讀取檔案頭行
3 讀取檔案剩餘的行
4 當錯誤發生時,丟擲異常
'''
#讀取所有的內容後,列印頭行和剩餘的行的內容
import csv
filename = "/root/Desktop/data-visualization/data_visualization_Code/3367OS_02_Code/ch02-data.csv"
# filename = "/root/Desktop/data-visualization/data_visualization_Code/3367OS_02_Code/ch02-data.tab"
data = []
try:
with open(filename) as f:
reader = csv.reader(f) #讀取CSV檔案
# reader = csv.reader(f, dialect = csv.excel_tab) #讀取製表符分隔的檔案
header = reader.next()
data = [row for row in reader]
except csv.Error as e:
print "reader CSV Error in line %s: %s", (reader.line_num, e)
sys.exit(-1)
if header:
print header
print "========================"
for datarow in data:
print datarow
NumPy檔案存取
如果想處理大資料的檔案,明智的做法是使用NumPy的loadtxt()方法,這個方法可以很好的處理大資料量的CSV檔案。這裡有一篇文章:NumPy檔案存取寫的非常詳細,為便於閱讀,一起抄錄在這裡:
NumPy提供了多種存取陣列內容的檔案操作函式。儲存陣列資料的檔案可以是二進位制格式或者文字格式。二進位制格式的檔案又分為NumPy專用的格式化二進位制型別和無格式型別。
使用陣列物件的tofile()方法可以方便地將陣列中的資料以二進位制格式寫進檔案。tofile()輸出的資料不儲存陣列形狀和元素型別等資訊。因此用fromfile()函式讀回資料時需要使用者指定元素型別,並對陣列的形狀進行適當的修改:
>>> a = np.arange(0,12)
>>> a.shape = 3,4
>>> a
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
>>> a.tofile("a.bin")
>>> b = np.fromfile("a.bin", dtype=np.float) # 按照float型別讀入資料
>>> b # 讀入的資料是錯誤的
array([ 2.12199579e-314, 6.36598737e-314, 1.06099790e-313,
1.48539705e-313, 1.90979621e-313, 2.33419537e-313])
>>> a.dtype # 檢視a的dtype
dtype('int32')
>>> b = np.fromfile("a.bin", dtype=np.int32) # 按照int32型別讀入資料
>>> b # 資料是一維的
array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
>>> b.shape = 3, 4 # 按照a的shape修改b的shape
>>> b # 這次終於正確了
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
從上面的例子可以看出,在讀入資料時需要正確設定dtype引數,並修改陣列的shape屬性才能得到和原始資料一致的結果。無論資料的排列順序是C語言格式還是Fortran語言格式,tofile()都統一使用C語言格式輸出。此外如果指定了sep引數,則fromfile()和tofile()將以文字格式對陣列進行輸入輸出。sep引數指定的是文字資料中數值的分隔符。
load()和save()用NumPy專用的二進位制格式儲存資料,它們會自動處理元素型別和形狀等資訊:
>>> np.save("a.npy", a)
>>> c = np.load( "a.npy" )
>>> c
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
如果想將多個數組儲存到一個檔案中,可以使用savez()。savez()的第一個引數是檔名,其後的引數都是需要儲存的陣列,也可以使用關鍵字引數為陣列起名,非關鍵字引數傳遞的陣列會自動起名為arr_0、arr_1、…。savez()輸出的是一個副檔名為npz的壓縮檔案,其中每個檔案都是一個save()儲存的npy檔案,檔名和陣列名相同。load()自動識別npz檔案,並且返回一個類似於字典的物件,可以通過陣列名作為鍵獲取陣列的內容:
>>> a = np.array([[1,2,3],[4,5,6]])
>>> b = np.arange(0, 1.0, 0.1)
>>> c = np.sin(b)
>>> np.savez("result.npz", a, b, sin_array = c)
>>> r = np.load("result.npz")
>>> r["arr_0"] # 陣列a
array([[1, 2, 3],
[4, 5, 6]])
>>> r["arr_1"] # 陣列b
array([ 0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])
>>> r["sin_array"] # 陣列c
array([ 0. , 0.09983342, 0.19866933, 0.29552021, 0.38941834,
0.47942554, 0.56464247, 0.64421769, 0.71735609, 0.78332691])
用解壓軟體開啟“result.npz”檔案,會發現其中有三個檔案:“arr_0.npy”、“arr_1.npy”和“sin_array.npy”,其中分別儲存著陣列a、b、c的內容。
→ save()和savez()輸出的二進位制檔案有特殊的格式,較難用其它語言編寫的程式讀入。
savetxt()和loadtxt()可以讀寫儲存1維和2維陣列的文字檔案。例如可以用它們讀寫CSV格式的文字檔案:
>>> a = np.arange(0,12,0.5).reshape(4,-1)
>>> np.savetxt("a.txt", a) # 預設按照'%.18e'格式儲存數值,以空格分隔
>>> np.loadtxt("a.txt")
array([[ 0. , 0.5, 1. , 1.5, 2. , 2.5],
[ 3. , 3.5, 4. , 4.5, 5. , 5.5],
[ 6. , 6.5, 7. , 7.5, 8. , 8.5],
[ 9. , 9.5, 10. , 10.5, 11. , 11.5]])
>>> np.savetxt("a.txt", a, fmt="%d", delimiter=",") #改為儲存為整數,以逗號分隔
>>> np.loadtxt("a.txt",delimiter=",") # 讀入的時候也需要指定逗號分隔
array([[ 0., 0., 1., 1., 2., 2.],
[ 3., 3., 4., 4., 5., 5.],
[ 6., 6., 7., 7., 8., 8.],
[ 9., 9., 10., 10., 11., 11.]])
有的CSV檔案中除了儲存數值之外,還儲存一些說明文字,例如第一行和第一列通常為列名和行名。如果需要忽略CSV檔案的第一行和第一列,可以先將檔案讀為字串陣列,然後取出需要的部分再轉換為數值陣列。例如對於下面的CSV資料檔案:
姓名,年齡,體重,身高
張三,30,75,165
李四,45,60,170
王五,15,30,120
# -*- coding: utf-8 -*-
"""
使用NumPy快速讀取CSV檔案。
"""
import numpy as np
# 採用字串陣列讀取檔案
tmp = np.loadtxt("test.csv", dtype=np.str, delimiter=",")
# 將部分陣列的值進行轉換
data = tmp[1:,1:].astype(np.float)
print data
# 定義結構陣列元素的型別
persontype = np.dtype({
'names':['name', 'age', 'weight', 'height'],
'formats':['S32','i', 'f', 'f']})
f = file("test.csv")
f.readline() # 跳過第一行
data = np.loadtxt(f, dtype=persontype, delimiter=",")
f.close()
print data
>>> tmp = np.loadtxt("test.csv", dtype=np.str, delimiter=",")
>>> data = tmp[1:,1:].astype(np.float)
>>> data
array([[ 30., 75., 165.],
[ 45., 60., 170.],
[ 15., 30., 120.]])
此外,使用結構陣列也能讀入這樣的檔案,並且可以使用不同的元素型別儲存每個列的值,下面先定義結構陣列的型別:
>>> persontype = np.dtype({
... 'names':['name', 'age', 'weight', 'height'],
... 'formats':['S32','i', 'f', 'f']})
由於檔案中的第一行不是資料,因此需要先開啟資料檔案,讀取完第一行之後,再把檔案物件傳遞給loadtxt():
>>> f = file("test.csv")
>>> f.readline()
>>> data = np.loadtxt(f, delimiter=",", dtype=persontype)
>>> print data
[('\xe5\xbc\xa0\xe4\xb8\x89', 30, 75.0, 165.0)
('\xe6\x9d\x8e\xe5\x9b\x9b', 45, 60.0, 170.0)
('\xe7\x8e\x8b\xe4\xba\x94', 15, 30.0, 120.0)]
實際上,前面介紹的所有讀寫檔案的函式都可以直接使用已經開啟的檔案物件,如果使用檔案物件,可以將多個數組儲存到一個npy檔案中:
>>> a = np.arange(8)
>>> b = np.add.accumulate(a)
>>> c = a + b
>>> f = file("result.npy", "wb")
>>> np.save(f, a) # 順序將a,b,c儲存進檔案物件f
>>> np.save(f, b)
>>> np.save(f, c)
>>> f.close()
>>> f = file("result.npy", "rb")
>>> np.load(f) # 順序從檔案物件f中讀取內容
array([0, 1, 2, 3, 4, 5, 6, 7])
>>> np.load(f)
array([ 0, 1, 3, 6, 10, 15, 21, 28])
>>> np.load(f)
array([ 0, 2, 5, 9, 14, 20, 27, 35])
注:
[1] 這篇文章:理解Python中的with…as…語法詳細介紹了with…as…語法
[2]在《python資料視覺化程式設計