Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

阿新 • • 發佈：2018-12-12

Python爬蟲之爬取各大幣交易網站公告——靜態網站

瞭解爬蟲之後，我們也漸漸掌握了根據網站的種類選擇不同庫來對其進行處理，提取我們想要的東西。

靜態網站，我們往往利用requests庫提取網站html資訊，再通過正則表示式或BeautifulSoup庫提取我們想要的資訊。

注：本人面向物件目前還在學習，文中一切全為面向過程。

Python版本：Python3.X

執行平臺：Windows

IDE:PyCharm

瀏覽器:Chrome

目標：獲取公告標題時間連結，並以時間倒序，只輸出本地時間前一天的公告內容。

靜態網站

如中幣，bibox,火幣，位元兒等等。

方法:利用正則表示式，requests庫。由於這些網站操作幾乎一樣，此處便只以中幣為例。

第一步，根據URL獲取網頁的HTML資訊

利用requests庫進行網頁爬取。

import requests
if __name__=='__main__':
    target = 'https://www.zb.cn/i/blog?type=proclamation'
    req = requests.get(url=target)
    html = req.content
    html_doc = str(html, 'utf-8')
    print(html_doc)

執行結果如下：

我們獲得了HTML資訊，接下來我們將要從中提取我們想要的公告標題時間以及其連結。

這裡我們使用正則表示式。

第二步，利用正則表示式提取所需內容

首先同樣對網站進行檢查，得到如下介面：

我們可以很清楚的看到我們想要的公告時間標題和連結，接下來就是從這些標籤中提取資訊了。

根據正則，我們知道我們只要匹配**<a href=“和target=”_blank">**就可以了。然後我們嘗試一下：

正則表示式和程式碼如下：

href = re.findall(r'<a.href="(.*?)".target="_blank">', html_doc)

import requests
import re
if __name__=='__main__':
    target = 'https://www.zb.cn/i/blog?type=proclamation'
    req = requests.get(url=target)
    html = req.content
    html_doc = str(html, 'utf-8')
    href = re.findall(r'<a.href="(.*?)".target="_blank">', html_doc)
    num=len(href)
    n=0
    while(n<num):
        print(href[n])
        n=n+1

執行得到：

我們再看看檢查網站:

對比發現，我們確實得到了每一個公告的連結，但是每一個連結確實重複出現的，而且執行結果的第一個連結不是我們需要的，那我們接下來就需要更精確的匹配了。

再次檢查網站：

我們看到我們想要的連結和標題全在

標籤下，那我們是不是可以先提取

標籤的內容再提取其中的連結和標題呢？

嘗試一下：

content = re.findall(r'<h3>(.*?)</h3>', html_doc, re.S)

執行得到：

我們發現我們得到了連結和標題，現在需要做的就是進行再次提取。

我們知道findall()提取的是列表，我們現在需要從中提取元素，其中每一個元素包括一個連結和標題。這裡我們需要用到迴圈。

import requests
import re
if __name__=='__main__':
    target = 'https://www.zb.cn/i/blog?type=proclamation'
    req = requests.get(url=target)
    html = req.content
    html_doc = str(html, 'utf-8')
    content = re.findall(r'<h3>(.*?)</h3>', html_doc,re.S)
    a = len(content)
    n = 0
    while (n < a):
        href = re.findall(r'<a href="(.*?)".target="_blank">',content[n], re.S)[0]
        href = 'https://www.zb.cn%s' % href
        title = re.findall(r'.target="_blank">(.*?)</a>',content[n], re.S)[0]
        print(title,href)
        n=n+1

執行結果如下：

我們發現方法確實，不過標題和連結正好錯開一行，接下來利用strip()清除空格換行

將 print(title,href)改成print(title.strip(),href)，執行得到：

成功完成。

接下來提取時間，一種是在公告網站再次利用正則提取，另一種便是進入每一條公告連結的網站中進行提取。

我用的是第二種。注：方法很多，歡迎與我交流～

我們已經得到了連結，自然可以再次利用requests庫得到每一個連結HTML資訊，並利用正則表示式從中獲取時間資訊。只需要在迴圈中加入以下程式碼：

 	target = href
    req = requests.get(url=target)
    html = req.content
    html_doc = str(html, 'utf-8')
	 time = re.findall(r'釋出時間.<span>(.*?)</span>&nbsp;&nbsp;&nbsp;&nbsp;', html_doc,re.S)[0]

執行得到：

第三步，提取前一天公告

我們已經將所需內容全部獲取，現在只需要提取前一天公告，利用如下程式碼得到前一天日期：

now_time = datetime.datetime.now()
yes_time = now_time + datetime.timedelta(days=-1)
yes_time_nyr = yes_time.strftime('%Y-%m-%d')

程式碼如下：

import requests
import re
import datetime
if __name__=='__main__':
    now_time = datetime.datetime.now()
    yes_time = now_time + datetime.timedelta(days=-1)
    yes_time_nyr = yes_time.strftime('%Y-%m-%d')
    target = 'https://www.zb.cn/i/blog?type=proclamation'
    req = requests.get(url=target)
    html = req.content
    html_doc = str(html, 'utf-8')
    content = re.findall(r'<h3>(.*?)</h3>', html_doc,re.S)
    a = len(content)
    n = 0
    judge=[]
    while (n < a):
        href = re.findall(r'<a href="(.*?)".target="_blank">',content[n], re.S)[0]
        href = 'https://www.zb.cn%s' % href
        title = re.findall(r'.target="_blank">(.*?)</a>',content[n], re.S)[0]
        target = href
        req = requests.get(url=target)
        html = req.content
        html_doc = str(html, 'utf-8')
        time =re.findall(r'釋出時間.<span>(.*?)</span>&nbsp;&nbsp;&nbsp;&nbsp;', html_doc,re.S)[0]
        all=time+title.strip()+href
        if yes_time_nyr in all:
            print(all)
            judge+=all
        n=n+1
if(len(judge))==0:
    print('本日無公告')

特例（1）

當我們用以上方法爬取位元兒時，我們會發現結果是這樣的：

我們發現我們得到的公告是英文，而瀏覽該網站時，我們卻發現公告是中文

觀察網站我們發現它還有其他語言版本。

接下來我們對中文版本和英文版本進行比較

用F12熱鍵，找到Network點選XHR,重新整理得到：

接下來點選ann，進入後會發現如下資訊：

同樣我們進入英文版介面得到相同資訊。兩者對比，我們發現這兩個幾乎完全相同，只有Cookie不同。

Cookie:

market_title=usdt; __ca__chat=viaGJUV1FD2z; Hm_lvt_0a1ead8031fdf1a7228954da1b158d36=1537678616,1538365833; sc_is_visitor_unique=rx11802877.1538365914.CE52C987E49E4FD2316BEC49E4353B91.1.1.1.1.1.1.1.1.1; Hm_lpvt_0a1ead8031fdf1a7228954da1b158d36=1538368920; lang=en; lasturl=%2Farticlelist%2Fann; sc_is_visitor_unique=rx11802852.1538368929.CE52C987E49E4FD2316BEC49E4353B91.1.1.1.1.1.1.1.1.1-11802877.1538365914.1.1.1.1.1.1.1.1.1

Cookie:

market_title=usdt; __ca__chat=viaGJUV1FD2z; Hm_lvt_0a1ead8031fdf1a7228954da1b158d36=1537678616,1538365833; sc_is_visitor_unique=rx11802877.1538365914.CE52C987E49E4FD2316BEC49E4353B91.1.1.1.1.1.1.1.1.1; lang=cn; lasturl=%2Farticlelist%2Fann; sc_is_visitor_unique=rx11802877.1538370060.CE52C987E49E4FD2316BEC49E4353B91.2.2.1.1.1.1.1.1.1; Hm_lpvt_0a1ead8031fdf1a7228954da1b158d36=1538370061

所以我們猜測可能是因為Cookie的原因，我們嘗試一下：

import requests
import re
import datetime
if __name__=='__main__':
    now_time = datetime.datetime.now()
    yes_time = now_time + datetime.timedelta(days=-1)
    yes_time_nyr = yes_time.strftime('%Y-%m-%d')
    f = open(r'cookies.txt', 'r')
    cookies = {}
    for line in f.read().split(';'):
        name, value = line.strip().split('=', 1)
        cookies[name] = value
    target = 'https://www.gateio.io/articlelist/ann'
    req = requests.get(url=target,cookies=cookies)
    html = req.text
    content = re.findall(r'<a href="(.*?).title="(.*?)\d*".target="_blank"',html)
    a = len(content)
    n = 0
    judge = []
    while (n < a):
        url = content[n][0]
        url = 'https://www.gateio.io%s' % url
        url = url.replace('"', '')
        title = content[n][1]
        n = n + 1
        target = url
        req = requests.get(url=target)
        html = req.text
        news = re.findall(r'<div class="new-dtl-info">(.*?)</div>', html, re.S)[
            0]
        time = re.findall(r'<span>(.*?)</span>', news)[0]
        all = time + '\t' + title + '\t' + url
        if yes_time_nyr in all:
            print(all)
            judge += all
    if len(judge) == 0:
        print('本日無公告')

其中cookies.txt文件中存入我們得到的中文版的cookie。

執行得到：

目標完成。

特例（2）

有的網站在爬取後我們會發現得到的時間資訊為格林時間，需要自己進行轉換，這裡給出轉換程式碼如下：

utc = time
UTC_FORMAT = "%Y-%m-%dT%H:%M:%SZ"
utcTime = datetime.datetime.strptime(utc, UTC_FORMAT)
localtime = utcTime + datetime.timedelta(hours=8)

其中time為格林時間。

Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

Python爬蟲之爬取各大幣交易網站公告——靜態網站瞭解爬蟲之後，我們也漸漸掌握了根據網站的種類選擇不同庫來對其進行處理，提取我們想要的東西。靜態網站，我們往往利用requests庫提取網站html資訊，再通過正則表示式或BeautifulSoup庫提取我們

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片到本地。當我們在看百度圖片時，右鍵–檢查–Elements，點選箭頭，再用箭頭點選圖片時

Python爬蟲之爬取動態頁面資料

很多網站通常會用到Ajax和動態HTML技術，因而只是使用基於靜態頁面爬取的方法是行不通的。對於動態網站資訊的爬取需要使用另外的一些方法。先看看如何分辨網站時靜態的還是動態的，正常而言含有“檢視更多”字樣或者開啟網站時下拉才會載入內容出來的進本都是動態的，簡便的方法就是在

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

爬取問題標題並儲存到資料庫：程式碼： # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co

Python爬蟲之爬取瓜子二手車資訊- requests方法

最近在做二手車市場資料分析，試著爬取瓜子二手車在售車輛資訊，做一下記錄大致思路如下： 2、從a連結頁面獲取每輛車詳情頁的連結b 3、進入b抓取我需要的車輛資訊： car_model = Field() # 車型資訊 registe

Python爬蟲之爬取內涵吧段子（urllib.request）

引言在寒假開始的時候就打算學習爬蟲了，但是沒有想到一入坑到現在還沒有出坑，說多了都是淚 T_T 我準備介紹的這個庫是我初學爬蟲時候用到的，比較古老，所以我只用了一兩次就轉向了requests了

python爬蟲爬取各大平臺女主播圖片

目標: 各大直播平臺~~~(虎牙,熊貓,鬥魚,全民),內的女主播直播封面圖片. 所需掌握知識: re正則表示式的,os模組,urllib模組剛剛將這幾個平臺的顏值區域女主播都爬了一遍,整體來說步驟大致相同,我們這裡就拿”虎牙直播”來做個示範,看懂之後,可以先去嘗試爬取”

Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼

可以實現功能的全部程式碼： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_statu

python初級實戰系列教程《一、爬蟲之爬取網頁、圖片、音視訊》

python基礎知識可以到廖雪峰大佬的官網學習哦！廖雪峰官網網址學完python就開始我們的實戰吧！首先我們就來學習下python爬蟲學習Python爬蟲，先是介紹一個最容易上手的庫urll

python爬蟲實戰爬取汽車之家上車型價格

相關庫 import pymysql import pymysql.cursors from bs4 import BeautifulSoup import requests import random

python 3.3 爬蟲之爬取圖片

今天沒事用BeautifulSoup寫了一個爬取淘寶頁面的部分圖片的程式碼，之前用正則也寫了一個，感覺用BeautifulSoup 更簡單了 import urllib import urllib.request as request from bs4 import Bea

想爬取各大網站的小姐姐？這份爬蟲速成指南送你了！包學會哦！

在spiders資料夾中建立一個python檔案，比如miao.py，來作為爬蟲的指令碼。程式碼如下：解析1.試試神奇的xpath2.看看xpath的效果在最上面加上引用：from scrapy import Selector把parse函式改成：我們再次執行一下，你就可以看

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

最最簡單的python爬蟲教程--爬取百度百科案例

python爬蟲；人工智能from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#導入相關的包 his

Python爬蟲入門 | 爬取豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~好啦，正式開始我們的第二節課《爬取豆瓣電影信息》吧！啦啦哩啦啦，

Python 爬蟲 ajax爬取馬雲爸爸微博內容

item ber ODB ont 分享 cache cti book 生成 ajax爬取情況有時候我們在用 Requests 抓取頁面的時候，得到的結果可能和在瀏覽器中看到的是不一樣的，在瀏覽器中可以看到正常顯示的頁面數據，但是使用 Requests 得到的結果並沒有，

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

tps python 分享列表 scrapy 網頁 pytho 分享圖片介紹 *準備工作：爬取的網址：https://www.jianshu.com/p/7353375213ab 爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中小

Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

Python爬蟲之爬取各大幣交易網站公告——靜態網站

靜態網站

第一步，根據URL獲取網頁的HTML資訊

第二步，利用正則表示式提取所需內容

標籤下，那我們是不是可以先提取

標籤的內容再提取其中的連結和標題呢？

第三步，提取前一天公告

特例（1）

特例（2）

相關推薦