python3.6爬蟲案例：爬取某網站所有PPT（下）。

阿新 • • 發佈：2019-01-16

上篇部落格：python3.6爬蟲案例：爬取某網站所有PPT（上）給大家介紹了爬取（http://www.1ppt.com/）網站中的ppt檔案，爬下來的檔案如下：

所以，我們就要考慮將其名稱修改為其在網頁中顯示的名字，並將其批量解壓到指定資料夾。

一、批量修改壓縮檔名稱。

細心的夥伴可以從上圖發現，壓縮檔案的格式不同有zip、rar兩種格式，所以我們需要分別處理，在後續的批量解壓檔案中需要不同的python模組進行處理。批量修改壓縮檔名稱的思路不難，主要運用os模組，依次開啟每個主題中每個欄目下的壓縮檔案，同時開啟zip_utl.txt檔案，匹配壓縮檔名，匹配成功將中文名稱重新命名為壓縮檔名稱。py檔案為Change_file_name.py，程式碼如下：

import os

#開啟類目url，選中資料夾
def split_(string):
    st = string.strip().split(';')
    return st

#處理資料夾名稱
def judgeName(name):
    fh = ['?','\\','/','：','*','"','<','>','|']
    for fh_ in fh:
        if fh_ in name:
            name = name.replace(fh_, '_')
    return name


#傳入一個當前資料夾名稱，對其子檔案進行更改名稱
def change_file_name(current_file_path):#變數格式：'F://ppt//中國風背景圖片//'
    print("正在更改"+current_file_path+"資料夾下的內容")
    current_file_names = os.listdir(current_file_path)
    if len(current_file_names)>2:
        f = open(current_file_path+'zip_url.txt','r',encoding='utf-8')
        current_zip_url_names = f.readlines()
        f.close()
        for current_file_name in current_file_names:
            file_format = current_file_name[current_file_name.find("."):]#讀取當前檔案格式

        #讀取檔名稱
            file_name = current_file_name[:current_file_name.find(".")]
        #在zip_url檔案中遍歷
            for zip_url_name in current_zip_url_names:
                zip_url_name = split_(zip_url_name)
                zip_name = zip_url_name[0]
        #         print(name)
                zip_url = zip_url_name[1]
                file_real_name = zip_url.split('/')[-1][:zip_url.split('/')[-1].find(".")]#在zip_url中的連結中找到壓縮檔名
                if file_name == file_real_name:
                    try:
                        if file_format == '.rar':#判斷格式，精確重新命名，後面檔案批量解壓不同的格式有不同的方法。
                            os.rename(current_file_path+file_name+'.rar',current_file_path+zip_name+'.rar')
                        else:
                            os.rename(current_file_path+file_name+'.zip',current_file_path+zip_name+'.zip')
                    except:
                        pass
                else:
                    pass

def main():

    with open('F://ppt//url.txt','r') as f_root_url:
        zhu_ti_names = f_root_url.readlines()
    for zhu_ti_item in zhu_ti_names:
        print("正在處理"+zhu_ti_item+'_資料夾下的內容')
        zhu_ti_name = split_(zhu_ti_item)[0]#提取主題名
        with open('F://ppt//'+zhu_ti_name+'//url.txt','r') as f:
            lei_bie_names = f.readlines()
        for lei_bie_item in lei_bie_names:
            lei_bie_name = judgeName(split_(lei_bie_item)[0])
            change_file_name('F://ppt//'+zhu_ti_name+'//'+lei_bie_name+'//')
if __name__ =="__main__":
    main()

執行程式後，效果如下

二、批量解壓縮檔案到指定資料夾

有了這些檔案，如果我們採用批量下載檔案的那種方法，未免太浪費時間。python的zipfile與unrar中的rarfile可以分別解壓zip、rar檔案。思路是遍歷每個主題資料夾下的欄目資料夾，找到每個壓縮檔案，判斷其格式，採用相應的方法將需要的壓縮包中的檔案解壓到指定資料夾。該部分的py檔案為：ExtractArchiveFile.py，程式碼如下：

import zipfile
import os
from unrar import rarfile

#開啟類目url，選中資料夾
def split_(string):
    st = string.strip().split(';')
    return st

#處理資料夾名稱
def judgeName(name):
    fh = ['?','\\','/','：','*','"','<','>','|']
    for fh_ in fh:
        if fh_ in name:
            name = name.replace(fh_, '_')
    return name

#解壓縮檔案
def archive_extract(zip_exit_file, one_file, two_file):#zip檔案所在目錄，主題資料夾，類別資料夾
    current_file_path = 'F://ppt1//'+one_file+'//'+two_file+'//' #用於建立新的主題資料夾和類別資料夾
    current_file_names = os.listdir(zip_exit_file) #壓縮檔案所在的類別資料夾下的所有檔案
    for current_file_name in current_file_names:
        print(current_file_name)
        archive_format = current_file_name[current_file_name.find('.'):] #壓縮檔案格式
        archive_name =  current_file_name[:current_file_name.find('.')]#壓縮檔名稱
        if archive_format == '.zip':#判斷壓縮檔案型別，不同的型別解壓所用的包不同
            azip = zipfile.ZipFile(zip_exit_file+current_file_name,'r')#讀取壓縮包裡面的檔案
            try:
                zip_num = 1#如果壓縮檔案中有多個檔案，命名以此加1
                for filename in azip.namelist():#遍歷所有檔案
#                     print('---'+filename)
                    filename_lenth = len(filename)
                    file_format = filename[filename.find('.',filename_lenth-5):]#提取壓縮檔案中子檔案的格式
    #                 print(file_format)
                    if file_format in ['.pptx', '.ppt' , '.jpg', 'JPG']:#判斷是否是需要的檔案，如果是則解壓到指定資料夾

                        try:
                            azip.extract(filename, path=current_file_path)#解壓
                        except:
                            continue
                        if zip_num == 1:#首個檔案命名格式
                            os.rename(current_file_path+filename,current_file_path+archive_name+file_format)
                            zip_num += 1
                        else:#如果是多個檔案，命名加1
                            os.rename(current_file_path+filename,current_file_path+archive_name+str(zip_num)+file_format)
                            zip_num += 1
            finally:
                pass
            azip.close()
        if archive_format == '.rar':
            arar = rarfile.RarFile(zip_exit_file+current_file_name,'r')
            try:
                rar_num = 1
                for filename in arar.namelist():
    #                 print(filename)
                    filename_lenth = len(filename)
                    file_format = filename[filename.find('.',filename_lenth-5):]
                    if file_format in ['.pptx', '.ppt' , '.jpg', 'JPG']:
                        try:
                            arar.extract(filename, path=current_file_path)
                        except:
                            continue
                        if rar_num == 1:
                            os.rename(current_file_path+filename,current_file_path+archive_name+file_format)
                            rar_num += 1
                        else:
                            os.rename(current_file_path+filename,current_file_path+archive_name+str(rar_num)+file_format)
                            rar_num += 1
    #                 break
            finally:
                pass
    #     break
    print('結束')


def main():

    with open('F://ppt//url.txt','r') as f_root_url:
        zhu_ti_names = f_root_url.readlines()
    for zhu_ti_item in zhu_ti_names:
        print("正在處理"+zhu_ti_item.strip()+'_資料夾下的內容')
        zhu_ti_name = split_(zhu_ti_item)[0]#提取主題名
        try:
            with open('F://ppt//'+zhu_ti_name+'//url.txt','r') as f:
                lei_bie_names = f.readlines()
            for lei_bie_item in lei_bie_names:
                print("   正在解壓"+lei_bie_item.strip()+"_類別下的壓縮檔案")
                lei_bie_name = judgeName(split_(lei_bie_item)[0])
                extract_file = 'F://ppt//'+zhu_ti_name+'//'+lei_bie_name+'//'#壓縮檔案所在位置
                archive_extract(extract_file, zhu_ti_name, lei_bie_name)
        except:
            with open('F://ppt//'+zhu_ti_name+'//url.txt','r',encoding='utf-8') as f:
                lei_bie_names = f.readlines()
            for lei_bie_item in lei_bie_names:
                print("   正在解壓"+lei_bie_item.strip()+"_類別下的壓縮檔案")
                lei_bie_name = judgeName(split_(lei_bie_item)[0])
                extract_file = 'F://ppt//'+zhu_ti_name+'//'+lei_bie_name+'//'#壓縮檔案所在位置
                archive_extract(extract_file, zhu_ti_name, lei_bie_name)
            
if __name__ =="__main__":
    main()

這部分程式碼的註釋較詳細，大家可以看下，細節性的問題比較多，不再一一囉嗦了。我將檔案批量解壓到f盤下的PPT1檔案下，執行程式之後效果如下：

結束語

到這裡，這個網站的PPT按照這樣方法基本被我們爬下來了。從這樣的網站爬取內容，雖然難度上不是很大，由於網路的原因、網頁本身結構的原因，在程式執行的過程中會遇到很多問題，要根據問題能夠修改程式碼使其穩健執行。這些ppt足以滿足平時的使用，演示的時候我只做了兩個主題中的部分欄目，其他的以後有時間再自己爬下來。

如果有什麼問題歡迎留言交流，喜歡本篇文章記得關注我哦。

python3.6爬蟲案例：爬取某網站所有PPT（下）。

一、批量修改壓縮檔名稱。

二、批量解壓縮檔案到指定資料夾

結束語

python3.6爬蟲案例：爬取某網站所有PPT（下）。

python3.6爬蟲案例：爬取朝秀幫圖片

python3程式設計07-爬蟲實戰：爬取新聞網站資訊3

[python3.6]爬蟲實戰之爬取淘女郎圖片

Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊

python 3.x 爬蟲基礎---正則表示式（案例：爬取貓眼資訊，寫入txt,csv,下載圖片）

python3程式設計08-爬蟲實戰：爬取網路圖片

爬蟲記錄（6）——爬蟲實戰：爬取知乎網站內容，儲存到資料庫，並匯出到Excel

2-6-1 應用案例：爬取豆瓣 TOP250 電影資訊並存儲（版本：py3）——學習筆記

Python爬蟲例項：爬取B站《工作細胞》短評——非同步載入資訊的爬取

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(執行緒池版)

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多執行緒版)

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多程序版)

Python爬蟲教程：爬取百度貼吧

Python爬蟲教程：爬取崗位分析報告

Python爬蟲案例：抓取豆瓣程式設計類高評分書籍

Python爬蟲例項：爬取“最好大學網”大學排名

爬蟲二：爬取智聯招聘職位資訊

網路爬蟲之scrapy爬取某招聘網手機APP釋出資訊

python爬蟲四：爬取貼吧資料

python3.6爬蟲案例：爬取某網站所有PPT（下）。

一、批量修改壓縮檔名稱。

二、批量解壓縮檔案到指定資料夾

結束語

相關推薦