用Python處理"大"XLS檔案

阿新 • • 發佈：2019-01-27

權當學習Python練手用的.

檔案都是些什麼內容?
- ’Accident_Index’,
- ‘Location_Easting_OSGR’,
- ‘Location_Northing_OSGR’,
- ‘Longitude’,
- ‘Latitude’,
- ‘Police_Force’,
- ‘Accident_Severity’,
- ‘Number_of_Vehicles’,
- ‘Number_of_Casualties’,
- ‘Date’,
- ‘Day_of_Week’,
- ‘Time’,
- ‘Local_Authority_(District)’,
- ‘Local_Authority_(Highway)’,
- ‘1st_Road_Class’, ‘1st_Road_Number’,
- ‘Road_Type’,
- ‘Speed_limit’,
- ‘Junction_Detail’,
- ‘Junction_Control’,
- ‘2nd_Road_Class’,
- ‘2nd_Road_Number’,
- ‘Pedestrian_Crossing-Human_Control’,
- ‘Pedestrian_Crossing_Physical_Facilities’,
  - ’Light_Conditions’,
  - ‘Weather_Conditions’,
  - ‘Road_Surface_Conditions’,
  - ‘Special_Conditions_at_Site’,
  - ‘Carriageway_Hazards’,
  - ‘Urban_or_Rural_Area’,
  - ‘Did_Police_Officer_Attend_Scene_of_Accident’,
  - ‘LSOA_of_Accident_Location’

LowMemory 方式讀取檔案

#read the file
filedir='/home/derek/Desktop/python-data-analyis/large-excel-files/Accidents_2013.csv'
data = pd.read_csv(filedir,low_memory=False 
)
print data.ix[:10]['Day_of_Week']

SQL likes 提取資料資訊

print 'Accidents'
print '----------'
#選擇星期日發生的事故
accidents_sunday = data[data.Day_of_Week==1]
print 'Accidents which happended on a Sunday: ',len(accidents_sunday)
#選擇星期日發生的且涉事人數在十人以上的事故
accidents_sunday_twenty_cars = data[(data.Day_of_Week==1) & (data.Number_of_Vehicles>10)]
print'Accidents which happened on a Sunday involving > 10 cars: ' , len(accidents_sunday_twenty_cars)
#選擇星期日發生的且涉事人數在十人以上且天氣情況是下雨的事故(2對應的是無風下雨)
accidents_sunday_twenty_cars_rain = data[(data.Day_of_Week==1) & (data.Number_of_Vehicles>10) & (data.Weather_Conditions==2)]
print'Accidents which happened on a Sunday involving > 10 cars with rainning: ' , len(accidents_sunday_twenty_cars_rain)
#選擇在倫敦的星期日發生的事故
london_data = data[(data['Police_Force'] == 1) & (data.Day_of_Week==1)]
print 'Accidents in London on a Sunday',len(london_data)
#選擇在2000年的倫敦的星期日發生的事故
london_data_2000 = london_data[((pd.to_datetime('2000-1-1', errors='coerce')) > (pd.to_datetime(london_data['Date'],errors='coerce'))) & (pd.to_datetime(london_data['Date'],errors='coerce') < (pd.to_datetime('2000-12-31', errors='coerce')))]
print 'Accidents in London on a Sunday in 2000:',len(london_data_2000)

給人的感覺是特別像SQL語句,DataFrame的這種切片,方式特別好用,對不對?

pd.to_datetime(london_data['Date'],errors='coerce')

這裡是日期轉換函式.

輸出:

Accidents
----------
Accidents which happended on a Sunday:  14854
Accidents which happened on a Sunday involving > 10 cars:  1
Accidents which happened on a Sunday involving > 10 cars with rainning:  1
Accidents in London on a Sunday 2374
Accidents in London on a Sunday in 2000: 0

將部分DataFrame資料以XLSX檔案儲存下來
確保你安裝了XlsxWriter

sudo pip install XlsxWriter

writer = pd.ExcelWriter('london_data.xlsx', engine='xlsxwriter')
london_data.to_excel(writer, 'sheet1')
writer.save()
writer.close()

塊讀取,分析一個星期中那一天最有出事故的概率最大
程式碼.2013,2014,2015三年的事故記錄,在’Accidents_2013.csv’,’Accidents_2014.csv’, ‘Accidents_2015.csv’這三個檔案中

import pandas as pd
from pandas import Series
import matplotlib.pyplot as plt
#read the file
dir='/home/derek/Desktop/python-data-analyis/large-excel-files/'
filedir=['Accidents_2013.csv','Accidents_2014.csv', 'Accidents_2015.csv']
tot = Series([])
for i in range(3):
    #塊讀取檔案, 每次讀1000條記錄
    data = pd.read_csv(dir + filedir[i],chunksize=1000)
    for piece in data:
        tot = tot.add(piece['Day_of_Week'].value_counts(), fill_value=0)

day_index = ['Sun', 'Mon', 'Tues', 'Wed', 'Thur', 'Fri', 'Sat']
print 'data like:'
#tot = tot.sort_values(ascending=False)
print tot
#重新構造一個Series,是為了給索引命名
new_Series = Series(tot.values, index=day_index)
new_Series.plot()
plt.show()
plt.close()

控制檯輸出:

data like:
1    46052
2    60956
3    65006
4    64039
5    64445
6    69378
7    55162
dtype: float64

圖:
這裡寫圖片描述
三年記錄在案的有425038條記錄.

結論: 看來,英國人在工作日出行要比在休息日造成更多的事故.星期五的出行造成的事故最多,或許,星期五急著回家,哈哈.相比起來,星期五不適合外出.

檔案沒有提供,是因為:讀者可以自己去下載,可能找到更想更好用Python分析的資料.

用Python處理"大"XLS檔案

權當學習Python練手用的. 檔案都是些什麼內容? ’Accident_Index’, ‘Location_Easting_OSGR’, ‘Location_Northing_OSGR’, ‘Longitude’, ‘Latitude’, ‘

Java用String 擷取方式解析xml檔案、處理大xml檔案

對於小資料返回值直接可採用Document、element的解析方式即可獲得xml節點值。但對於返回值大於10M的資料，Document解析就顯得吃力甚至出現程式中斷情況。針對返回資料大的xml可採取Java String 分割擷取方式處理。如下報文返回的是銀行資訊，程式需要獲得Ba

用Python讀取大檔案（下）

上篇講到如何寫一個python程式去處理大檔案的內容讀取。中間涉及了幾個很關鍵的概念，可迭代物件，生成器和檔案物件。本篇解釋下這幾個概念。可迭代物件：在python中一個列表，就是一個可迭代物件，同時它也是迭代器。我們可以用for i in mylist

用python處理Excel文件（2）——用xlsxwriter模組寫xls/xlsx文件

本文主要總結一下如何使用xlsxwriter模組來自動化生成和處理Excel文件。簡單用法demo # !/usr/bin/python # coding:utf-8 # xlsxwriter的基本用法 import xlsxwriter # 1

用python處理excel檔案(1)

#!/usr/bin/env python3 import xlrd book=xlrd.open_workbook('E:\\研究生學習\\python資料\\實驗資料\\Excel檔案實驗資料\\SOWC 2014 Stat Tables_Table 9.xlsx')

資料處理：用pandas處理大型csv檔案

在訓練機器學習模型的過程中，源資料常常不符合我們的要求。大量繁雜的資料，需要按照我們的需求進行過濾。拿到我們想要的資料格式，並建立能夠反映資料間邏輯結構的資料表達形式。最近就拿到一個小任務，需要處理70多萬條資料。我們在處理csv檔案時，經常使用pandas，可以幫助處理較大的

用python快速製作xml檔案

用python快速製作xml檔案 Shawn python 3.7 因為工作需要, 要用到xml檔案,所以用python寫了個類,以實現快速製作xml檔案. from xml.dom.minidom import Document # import x

用Python處理文字——刪除.txt每行中的不必要字元

最近實驗室給配了臺新電腦，想把原電腦上的python第三方庫遷移到新電腦上，但逐一使用pip安裝又太麻煩。現在使用pip命令批量安裝，省去逐一安裝的麻煩。在原電腦CMD使用pip list命令獲得的package每行後面都帶有版本號，如下 C:\Users\27641>pip lis

用 Python 處理 HTML 轉義字元的5種方式

寫爬蟲是一個傳送請求，提取資料，清洗資料，儲存資料的過程。在這個過程中，不同的資料來源返回的資料格式各不相同，有 JSON 格式，有 XML 文件，不過大部分還是 HTML 文件，HTML 經常會混雜有轉移字元，這些字元我們需要把它轉義成真正的字元。什麼是轉義字元在 HTML 中 <

10分鐘內教你用Python實現多個檔案自動上傳到百度雲

一、環境說明 Python 3.7 和 win10系統二、準備工作首先我們需要安裝一個包，在cmd命令列介面安裝 bypy包。 pip install bypy 然後安裝成功後，在命令列執行命令 bypy info 會彈出一些類似一下的介

python處理mp3音訊檔案:搜尋靜音(空白)時間

最近在做英語單詞的lrc字幕檔案時，有個需求：需要找出mp3中的靜默起始時間,網上搜索了相關資料，搞了個python實現如下： from pydub import AudioSegment from pydub.silence import detect_silence i

學會用Python處理Excel文件，萬行Excel資料隨便解決！

前段時間小編分享了一篇關於處理文件的文章，本來想第二天再發一篇有關於處理Excel的文章，沒想到後面忘了，今天特地補上用Python來處理Excel文件。python再用於處理資料是非常合適的，所以難免會經常要對excel文件進行讀取的操作，網上這方面的資料相對來說比較殘缺；因此，搜尋了很多資料，總結一下比較

用Python處理非平穩時間序列（附程式碼）

原文地址：https://blog.csdn.net/tmb8z9vdm66wh68vx1/article/details/84207895 由於排版和圖片原因，請儘量轉制原文觀看，在此只是作為個人的一個記錄。作者：AISHWARYA SINGH 翻譯：陳之炎校對：丁楠雅本

想用python處理PDF怎麼辦？

import PyPDF2 as pdf inputfile = "/path/to/your/pdf/file" outputfile = "/path/to/your/new/pdf/file" reader = pdf.PdfFileReader(inputfile)

python處理將csv檔案1內容修改後寫入到csv2檔案

我這裡的方法或許不是很好，主要做法是使用列表和字典進行轉換，感覺很繁瑣，但是也是一種方法。如果有大神有更好的方法，請留言。 # -*- coding:utf-8 -*- #author:zgd import pandas import csv # with open("url_fea

用python指令碼定期備份檔案

2008-05-21 #!/usr/bin/env python # file name : backup.py # author: zhouhh # blog: http://blog.csdn.net/ablo_zhou #

用python 處理丟包log的數字

2008-03-31 先用bash指令碼排序，然後用python指令碼找出丟失的數字。當然，也可以完全在python指令碼中完成。 #!/usr/bin/python filename:findlost.py http://b

巧用xargs處理棘手的檔案

當有許多檔案需要識別出來並清理掉的時候，你可能會想到用find/xargs的命令組合不過你很快會發現，當linux/unix上檔案命名帶有空格之類的（在windows上這沒什麼大驚小怪的）那就束手無策了 e.g: ibusybox:test ibusybox$ find . . ./aaaa bb

用 Python 定位特定型別檔案

定位特定檔案定位特定的檔案，可以使用 fnmatch 以及 glob 這兩個標準庫，我們下面來分別看一下。 1. 使用 fnmatch 標準庫一般的話我們想要查詢特定型別的檔案，可以通過字串的字首匹配和字尾匹配來查詢，具體例項如下所示： >>> import o

python處理gz壓縮檔案，解壓並轉化為json

import requests import gzip import json # gz檔案地址 url='https://shilupan-basic-user-pro.oss-cn-shangha

用Python處理"大"XLS檔案

相關推薦