python爬蟲 | 爬取開放伺服器的檔案

阿新 • • 發佈：2018-12-13

1.任務背景

現已提供資料檔案，其中兩個欄位是ftp連結，每一條資料有兩個連結，連結對應開放伺服器的檔案列表，該項任務主要把檔案列表中指定的壓縮包檔案下載下來。

資料如圖所示：

在瀏覽器中開啟對應的某個ftp連結，如下圖所示，目標是將其中紅框中的壓縮包下載下來，一個ftp下載一個，一條資料對應下載兩個壓縮包：

2.資料預處理

由於python爬蟲的requests庫請求的url都是以http/https打頭，所有首先做的操作是將每個ftp連結字首轉換為http/https，程式碼如下：

def changePre(data):  #更換url字首為https
    hurlsGen=[]       #存放所有轉換完成的Gen FTP連結
    hurlsRef=[]       #存放所有轉換完成的Ref FTP連結
    i=0
    while i<len(data):  #迴圈遍歷所有資料進行轉換
        data=data.astype(str)
        furlGen = data['GenBank FTP'][i].strip()[3:]
        furlRef = data['RefSeq FTP'][i].strip()[3:]
        hurlGen = 'https' + furlGen+'/'
        hurlRef = 'https' + furlRef+'/'
        hurlsGen.append(hurlGen)
        hurlsRef.append(hurlRef)
        i+=1
    return hurlsGen,hurlsRef

3.得到每條轉換後的url對應的HTML程式碼

def getHTMLText(url, code="utf-8"):   #得到轉換後的每條url對應的HTML程式碼
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = code
        return r.text
    except:
        return ""

4.分析網頁原始碼

如上圖所示，可以發現程式碼非常簡單，所有檔案連結都在a標籤中。

5.解析HTML程式碼，提取指定下載檔案的檔名。

def parseHTMLText(html):   #解析網頁原始碼，提取指定下載檔案的檔名
    doc=pq(html)           #用pyquery提取a標籤
    a=doc('a')              
    filename='RNG'         #預設檔名為RNG
    for item in a.items():    #遍歷所有提取的a標籤，根據href屬性值，找到指定的下載檔案的檔名
        if 'protein.gpff.gz' in item.attr('href'): 
            filename=item.attr('href')
            print(filename)
    return filename

6.提取待下載的檔案，並寫在本地資料夾中

def writeFile(basicUrl,filename,filepath,count): 
        filepath1='{0}/{1}'.format(filepath,str(count)+'_'+filename)#本地寫入路徑
        if not os.path.exists(filepath1):
            with open(filepath1,'wb') as f:
                file=requests.get(basicUrl+filename) #指定檔案的下載連結
                if file.status_code==200:            #可能有的連結不含指定檔案 此時會生成一個空檔案，檔名為:序號_RNG
                    f.write(file.content)

7.全部程式碼：

#-*- coding:utf-8 -*-
import requests
import os
from pyquery import PyQuery as pq
import pandas as pd
from multiprocessing import Pool


def getHTMLText(url, code="utf-8"):   #得到轉換後的每條url對應的HTML程式碼
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = code
        return r.text
    except:
        return ""

def parseHTMLText(html):   #解析網頁原始碼，提取指定下載檔案的檔名
    doc=pq(html)           #用pyquery提取a標籤
    a=doc('a')              
    filename='RNG'         #預設檔名為RNG
    for item in a.items():    #遍歷所有提取的a標籤，根據href屬性值，找到指定的下載檔案的檔名
        if 'protein.gpff.gz' in item.attr('href'): 
            filename=item.attr('href')
            print(filename)
    return filename


def writeFile(basicUrl,filename,filepath,count): 
        filepath1='{0}/{1}'.format(filepath,str(count)+'_'+filename)#本地寫入路徑
        if not os.path.exists(filepath1):
            with open(filepath1,'wb') as f:
                file=requests.get(basicUrl+filename) #指定檔案的下載連結
                if file.status_code==200:            #可能有的連結不含指定檔案 此時會生成一個空檔案，檔名為:序號_RNG
                    f.write(file.content)
               


def changePre(data):  #更換url字首為https
    hurlsGen=[]       #存放所有轉換完成的Gen FTP連結
    hurlsRef=[]       #存放所有轉換完成的Ref FTP連結
    i=0
    while i<len(data):  #迴圈遍歷所有資料進行轉換
        data=data.astype(str)
        furlGen = data['GenBank FTP'][i].strip()[3:]
        furlRef = data['RefSeq FTP'][i].strip()[3:]
        hurlGen = 'https' + furlGen+'/'
        hurlRef = 'https' + furlRef+'/'
        hurlsGen.append(hurlGen)
        hurlsRef.append(hurlRef)
        i+=1
    return hurlsGen,hurlsRef

def Write(urls,title):
    count=1
    for url in urls:
        if not os.path.exists(title):
            os.mkdir(title)
        html = getHTMLText(url)
        #print(html)
        filename = parseHTMLText(html)
        filepath = title
        writeFile(url, filename, filepath,count)
        count+=1


hurlsGen=[]
hurlsReq=[]
def main():
    data=pd.read_csv('prokaryotes.csv')
    #data=data.head()
    hurlsGen,hurlsReq=changePre(data)
    #hurlsGen=["https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/504/085/GCA_000504085.1_ASM50408v1"]
    Write(hurlsGen,'Gen')    
    Write(hurlsReq,'Req')

if __name__=='__main__':
    main()

8.問題：

資料檔案總共有1w多條資料，對應2w多條連結，發現利用上述方式下載檔案的速度很慢。不知道是網路原因，還是程式碼本身有問題...費解...

python爬蟲 | 爬取開放伺服器的檔案

1.任務背景現已提供資料檔案，其中兩個欄位是ftp連結，每一條資料有兩個連結，連結對應開放伺服器的檔案列表，該項任務主要把檔案列表中指定的壓縮包檔案下載下來。資料如圖所示：在瀏覽器中開啟對應的某個ftp連結，如下圖所示，目標是將其中紅框中的壓縮包

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。京東的評論資料是通過介面提供的，所以先找

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python爬蟲爬取頁面源碼在本頁面展示

一個 nts ring 想要 strip code 空白列表 ngs python爬蟲在爬取網頁內容時，需要將內容連同內容格式一同爬取過來，然後在自己的web頁面中顯示，自己的web頁面為django框架首先定義一個變量html，變量值為一段HTML代碼 >&

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

python爬蟲爬取海量病毒文件

tle format nbsp contex logs request spl tde __name__ 因為工作需要，需要做深度學習識別惡意二進制文件，所以爬一些資源。 # -*- coding: utf-8 -*- import requests import re

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

python爬蟲——爬取古詩詞

爬蟲古詩詞實現目標 1.古詩詞網站爬取唐詩宋詞 2.落地到本地數據庫頁面分析通過firedebug進行頁面定位：源碼定位：根據lxml etree定位div標簽：# 通過 lxml進行頁面分析 response = etree.HTML(data

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

Python爬蟲 - 爬取百度html代碼前200行

http src mage bsp bubuko str 百度爬蟲圖片 Python爬蟲 - 爬取百度html代碼前200行 - 改進版, 增加了對字符串的.strip()處理 Python爬蟲 - 爬取百度html代碼前200行

簡易python爬蟲爬取boss直聘職位，並寫入excel

python爬蟲寫入excel1，默認城市是杭州，代碼如下#! -*-coding:utf-8 -*-from urllib import request, parsefrom bs4 import BeautifulSoupimport datetimeimport xlwt starttime = dat

Python 爬蟲爬取微信文章

微信爬蟲爬取微信文章爬取公眾號文章搜狗微信平臺為入口地址：http://weixin.sogou.com/ --------------------------------------------------------------搜索關鍵詞“科技”對比網址變化情況查看網址http://wei

python爬蟲爬取QQ說說並且生成詞雲圖，回憶滿滿！

運維開發網絡分析 matplot 容易 jieba 編程語言提示框然而 Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且

Python爬蟲爬取OA幸運飛艇平臺獲取數據

sta 獲取數據 status fail attrs color wrapper 排行榜 req 安裝BeautifulSoup以及requests 打開window 的cmd窗口輸入命令pip install requests 執行安裝，等待他安裝完成就可以了 Beaut

利用python爬蟲爬取圖片並且制作馬賽克拼圖

python爬蟲 splay ise 做事 c-c sea mage item -a 　　想在妹子生日送妹子一張用零食（或者食物類好看的圖片）拼成的馬賽克拼圖，因此探索了一番= =。　　首先需要一個軟件來制作馬賽克拼圖，這裏使用Foto-Mosaik-Edda（網上也有在

Python - 爬蟲爬取和登陸github

用API搜尋GitHub中star數最多的前十個庫，並用post方法登陸並點選收藏一用API搜尋GitHub中star數最多的前十個庫利用GitHub提供的API爬取前十個star數量最多的Python庫 GitHub提供了很多專門為爬蟲準

用Python爬蟲爬取豆瓣電影、讀書Top250並排序

更新：已更新豆瓣電影Top250的指令碼及網站概述經常用豆瓣讀書的童鞋應該知道，豆瓣Top250用的是綜合排序，除使用者評分之外還考慮了很多比如是否暢銷、點選量等等，這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高，於是在這裡打算重新給To

Python爬蟲—爬取小說名著

週末閒來無事，本來想看一看書的，結果也沒看進去(RNG輸的我真是糟心。。。) 於是就用python寫了一個爬蟲，來爬取小說來看，防止下次還要去網上找書看。我們先找一個看名著的小說網我們開啟http://www.mingzhuxiaoshuo.com/ 名著小說網來，首先看到

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

python爬蟲爬取代理ip

最近想玩玩代理IP的刷東西怎麼實現的，所以來試試（生計所迫）這個是西刺免費代理IP http://www.xicidaili.com/ 不能保證都能用，所以爬取下來需要檢驗，用爬取的代理ip訪問網站，看狀態碼，是200就證明能用儲存到MongoDB

python爬蟲 | 爬取開放伺服器的檔案

相關推薦