【python學習筆記】35：爬蟲基礎和相關產品API(和風天氣)使用例項

阿新 • • 發佈：2018-11-19

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。

在網站URL後面跟robots.txt一般就可以看到網站允許和禁止爬取的資源。

GET請求獲取響應內容

最基本的爬蟲。

import requests

'''
中國旅遊網 /www.cntour.cn
'''

url = 'http://www.cntour.cn'
response = requests.get(url)  # 用GET方式獲取訪問該網站的響應
# print(type(response))  # <class 'requests.models.Response'> 

# print(type(response.text))  # <class 'str'>
print(response.text)  # 其中包含了HTML字串

POST請求有道翻譯服務

這裡涉及偽裝成瀏覽器訪問和使用代理池，如果實在難攻克的話可以用time.sleep()做延時。

在Chrome的Network裡過濾，找XHR型別，即通過XMLHttpRequest方法傳送的請求，是用Ajax方式傳送的請求。在使用有道翻譯時，不按翻譯鍵也會隨著輸入的內容而自動翻譯，顯然是在用Ajax方式互動。

import requests
import json

'''
有道翻譯 http://fanyi.youdao.com/
西刺代理 http://www.xicidaili.com/
''' 



# 使用有道翻譯傳送post請求來翻譯文字
def get_translate_data(word=None):
    # 訊息頭中的請求網址,因為有道反爬機制,在網上找到解決方案去掉"translate"後的"_o"
    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
    # post的請求實體,在chrome的Header裡可以看到
    form_data = {'i': word,  # 這裡是要翻譯的單詞
                 'from': 'AUTO' 
,
                 'to': 'AUTO',
                 'smartresult': 'dict',
                 'client': 'fanyideskweb',
                 'salt': '1540867058355',
                 'sign': 'a45461db88c2a4dcec5882c5d9670a20',
                 'doctype': 'json',
                 'version': '2.1',
                 'keyfrom': 'fanyi.web',
                 'action': 'FY_BY_REALTIME',
                 'typoResult': 'false'}
    # 構造一個瀏覽器的請求頭,偽裝成瀏覽器訪問,只要提供User-Agent(使用者代理),這裡偽裝成了Chrome
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36'}
    # 代理池,可以到西刺代理裡找HTTP和HTTPS的ip
    proxies = {
        'https': 'https://36.110.14.186:3128',
        'http:': 'http://58.53.128.83:3128'
    }
    # 傳送post請求,獲得響應.要傳入請求實體,這裡還傳入了偽裝的請求頭和代理池
    response = requests.post(url, data=form_data, headers=headers, proxies=proxies)
    # 將json格式字串轉字典
    context = json.loads(response.text)
    # 列印翻譯後的資料
    print(context['translateResult'][0][0]['tgt'])


if __name__ == '__main__':
    get_translate_data('我是個大傻逼')  # I'm a big silly force

BeautifulSoup網頁解析器

可以將網頁HTML解析成DOM樹的結構化資料，這項技術用來獲取想要的那部分資料，畢竟大多數網頁結構是比較複雜的。還好有檢查元素和Copy Selector這兩樣功能。

from bs4 import BeautifulSoup
import requests
import re

'''
中國旅遊網 /www.cntour.cn
'''

url = 'http://www.cntour.cn/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')  # 使用LXML的HTML解析器
print(type(soup))  # <class 'bs4.BeautifulSoup'>
# 空格不能少,不然會解析錯誤;注意,即便是取單條,nth-child改為nth-of-type
# 這部分用於選擇的字串在chrome中右鍵檢查,然後複製selector
data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')
print(type(data))  # <class 'list'>
# 把資料提取出來
for item in data:
    # print(type(item))  # <class 'bs4.element.Tag'>
    result = {
        'title': item.get_text(),  # 提取標籤的正文
        'link': item.get('href'),  # 提取標籤的href屬性L(連結字串)
        'ID': re.findall('\d+', item.get('href'))  # 用正則從連結字串中匹配數字部分
    }
    print(result)

用API爬取天氣預報資料

其實就是向指定格式的URL發請求就好了。這裡應當重點關注一下加密簽名的使用方式，這部分書上沒講。使用提供的加密簽名可以防止自己的key暴露給第三方，被惡意使用。

另外在實際寫程式碼時候發現了URL編碼的問題，在這個爬蟲裡只要考慮+號的編碼問題。

import base64
import csv
import hashlib
import time
import pymongo
import requests

'''
和風天氣3-10天天氣預報API https://www.heweather.com/douments/api/s6/weather-forecast
和風天氣加密簽名認證 https://www.heweather.com/documents/api/s6/sercet-authorization
JSON線上結構化工具 http://www.json.org.cn/tools/JSONEditorOnline/index.htm
和風天氣控制檯(看剩餘訪問量和key和使用者ID) https://console.heweather.com/my/service
城市程式碼ID下載 http://www.heweather.com/documents/city
'''

mykey = '80ba7933049a4065b687893a7619e909'
city_id = []  # 記錄城市id的列表


# API的一般使用方式
def weather_api(location, key):
    url = 'https://free-api.heweather.com/s6/weather/forecast?location=' + location + '&key=' + key
    response = requests.get(url)
    response.encoding = 'utf8'  # 設定Respons物件的編碼方式
    # print(response.text)
    return response


# 和風天氣簽名生成演算法-Python版本
# params API呼叫的請求引數集合的字典(全部需要傳遞的引數組成的字典),不包含sign引數
# secret 使用者的認證 key
# return string 返回引數簽名值
def gen_sign(params, secret):
    canstring = ''
    # 先將引數以其引數名的字典序升序進行排序
    # 字典的items()函式以列表返回可遍歷的(鍵,值)元組陣列
    params = sorted(params.items(), key=lambda item: item[0])
    # 遍歷排序後的引數陣列中的每一個key/value對
    for k, v in params:
        # 不能包含sign或者key或者空字串key.sign是要計算生成的,而key只用來計算sign,防止暴露給第三方
        if k != 'sign' and k != 'key' and v != '':
            canstring += k + '=' + v + '&'  # URL裡面的GET引數就是這樣的
    canstring = canstring[:-1]  # 用切片去除最後多餘的一個'&'符
    canstring += secret  # 尾接key
    # 在MD5物件建立前需要對資料進行編碼
    canstring = canstring.encode('utf8')
    # 用這個拼接後的字串建立一個md5物件,然後digest()方法返回md5的byte格式
    md5 = hashlib.md5(canstring).digest()
    # 對其進行base64編碼並返回,現在返回的就是加密簽名sign的value了
    return base64.b64encode(md5)  # 這個方法需要的是一個byte物件


# API的加密簽名使用方式
def weather_api_sign(location, key, username='HE1811071811441319'):
    # 獲取10位時間戳,即取當前time()結果的整數部分
    timestamp = int(time.time())
    # 請求引數,不包含key也不包含sign
    params = {'location': location, 'username': username, 't': str(timestamp)}
    # 計算簽名,並新增到請求引數字典中.注意byte轉換成字串才能用於後面的字串拼接
    sign = gen_sign(params, key)
    sign = str(sign, 'utf8')
    # 我發現有時會出現{"HeWeather6":[{"status":"sign error"}]}即簽名不正確
    # 這是因為sign裡可能出現'+'號導致的,在傳輸時'+'會被視為' ',因此需要做url轉義成'%2b'
    sign = str.replace(sign, '+', '%2B')
    params['sign'] = sign  # 現在得到的就是正確的簽名了,將其放入引數字典中
    # 從字典構造URL,然後對其傳送GET請求
    url = 'https://free-api.heweather.com/s6/weather/forecast?'
    for k, v in params.items():
        url += k + '=' + v + '&'
    url = url[:-1]  # 去除最後多餘的一個'&'符
    # print(url)
    response = requests.get(url)
    response.encoding = 'utf8'  # 設定Respons物件的編碼方式
    # print(response.text)
    return response


# 從下載的csv檔案中讀取城市id列表
def city_id_csv():
    global city_id
    # 解決'gbk' codec can't decode byte 0xad in position 256: illegal multibyte sequence
    csv_file = csv.reader(open('china-city-list.csv', 'r', encoding='UTF-8'))
    # print(type(csv_file))  # <class '_csv.reader'>
    # 用列舉使在for-in迴圈中能考察其迴圈次數
    for i, line in enumerate(csv_file):
        if i > 1:  # 這是為了跳過前兩行表頭
            city_id.append(line[0])
        if i > 30:  # 不妨只取少量城市,只是實現功能(現在免費使用者一天最多才1000次天氣查詢)
            break


# 連線到本地MongoDB中的資料庫(如果不存在即建立),並向其中寫入資料.要先呼叫填充city_id列表的函式
def sto_in_local_mongo():
    # 連線到本地MongoDB
    client = pymongo.MongoClient('localhost', 27017)
    # 天氣資料庫
    db_weather = client['weather']
    # 天氣資料庫中的資料表
    sheet_weather = db_weather['sheet_weather_3']
    # 寫入
    for id in city_id:
        city_weather = weather_api_sign(id, mykey)
        dic = city_weather.json()  # Response物件的json格式以字典儲存
        print(dic)
        sheet_weather.insert_one(dic)  # 寫入資料庫
        time.sleep(1)


if __name__ == '__main__':
    # weather_api('CN101010100', mykey)
    # weather_api_sign('CN101010100', mykey)
    # city_id_csv()  # 從本地csv檔案讀取城市編號
    # sto_in_local_mongo()  # 查詢城市天氣並存儲到本地
    # 從本地使用資料庫中的資料
    Client = pymongo.MongoClient('localhost', 27017)
    Db_Weather = Client['weather']
    Sheet_Weather = Db_Weather['sheet_weather_3']
    # 如查詢北京的資料如下.這裡的'.0'可以省略
    for item in Sheet_Weather.find({'HeWeather6.0.basic.parent_city': '北京'}):
        print(item)

執行結果：
在這裡插入圖片描述

【python學習筆記】35：爬蟲基礎和相關產品API(和風天氣)使用例項

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。在網站URL後面跟robots.txt一般就可以看到網站允許和禁止爬取的資源。 GET請求獲取響應內容最基本的爬蟲。 import requests ''' 中國旅遊網 /www.cntour.

【python學習筆記】45：認識Matplotlib和pyecharts資料視覺化

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Matplotlib資料視覺化資料準備 import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("E:/Data/p

【python學習筆記】37：認識Scrapy爬蟲,爬取滬深A股資訊

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識Scrapy爬蟲安裝書上說在pip安裝會有問題，直接在Anaconda裡安裝。建立Scrapy專案 PyCharm裡沒有直接的建立入口，在命令列建立（從Anaconda安裝後似乎自動就

【python學習筆記】36：抓取去哪兒網的旅遊產品資料

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。書上這章開篇就說了儘量找JSON格式的資料，比較方便解析（在python裡直接轉換成字典），去哪兒網PC端返回的不是JSON資料，這裡抓取的是它的移動端的資料。如果是就散落在網頁上，我覺得就像上篇學習的那

【python學習筆記】41：認識Pandas中的資料變形

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Pandas資料變形關於stack()和unstack()見這裡和這裡。 import pandas as pd import numpy as np # 讀取杭州天氣檔案 df = pd.read

【python學習筆記】40：Pandas中DataFrame的分組/分割/合併

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 DataFrame分組操作注意分組後得到的就是Series物件了，而不再是DataFrame物件。 import pandas as pd # 還是讀取這份檔案 df = pd.read_csv("

【python學習筆記】39：認識SQLAlchemy,簡單操作Pandas中的DataFrame

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識SQLAlchemy SQLAlchemy是Python的ORM工具，就像Java有Hibernate一樣，實現關係型資料庫中的記錄與Python自定義Class的物件的轉化，實現操作之間的對映。

【python學習筆記】38：使用Selenium抓取去哪兒網動態頁面

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。在去哪兒網PC端自由行頁面，使用者需要輸入出發地和目的地，點選開始定製，然後就可以看到一系列相關的旅遊產品。在這個旅遊產品頁換頁不會改變URL，而是重新載入，這時頁碼沒有體現在URL中，這種動態頁面用傳統的爬蟲

【python學習筆記】44：Series.apply()列資料批量處理,Series.str.extract()正則匹配

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Series.apply()列資料批量處理先將該列取出，形成Series物件，再呼叫apply()方法傳入用於處理的函式，這個過程就像map()一樣。 import pandas as pd # 各

【python學習筆記】43：Pandas時序資料處理

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Python中時間的一些常用操作 import time # 從格林威治時間到現在,單位秒 print('系統時間戳:', time.time()) print('本地時間按格式轉成str:', tim

【python學習筆記】42：Pandas資料缺失值/異常值/重複值處理

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。缺失值處理 Pandas資料物件中的缺失值表示為NaN。 import pandas as pd # 讀取杭州天氣檔案 df = pd.read_csv("E:/Data/practice/hz_we

【python學習筆記】46：隨機漫步,埃拉托色尼篩法,蒙特卡洛演算法,多項式迴歸

學習《Python與機器學習實戰》和《scikit-learn機器學習》時的一些實踐。隨機漫步 import matplotlib.pyplot as plt import numpy as np ''' 一維隨機漫步 ''' # 博弈組數 n_person = 20

【python學習筆記】33：生成器、迭代器、高階函式

生成器生成器(generator)相比列表推導式，只佔用很小的空間，因為它是一邊迴圈一邊推算，通過next()呼叫下一元素，並在結束時丟擲StopIteration異常，在語法上只要把[]換成()即可

【python學習筆記】12：用matplotlib繪製3D函式影象

①用pyplot的figure()函式可以建立一個figure物件 ②以它為引數建立Axes3D物件，使之具有3D座標軸 ③pyplot的show()方法可以顯示所有figure物件 *顯示兩個3D座標軸 import matplotlib.pyplot as plt #

【python學習筆記】13：用梯度下降法求解最優值問題

梯度是函式在某點沿每個座標的偏導數構成的向量，它反映了函式沿著哪個方向增加得最快。因此要求解一個二元函式的極小值，只要沿著梯度的反方向走，直到函式值的變化滿足精度即可。這裡打表儲存了途徑的每個點，最後在圖上繪製出來以反映路徑。 *梯度下降的具體實現 impor

【python學習筆記】16：numpy陣列四則運算

*改變陣列元素值 >>> x=np.arange(8) >>> x array([0, 1, 2, 3, 4, 5, 6, 7]) >>> np

【python學習筆記】25：scipy中值濾波

中值濾波技術能有效抑制噪聲，通過把數字影象中一點的值用該點周圍的各點值的中位數來代替，讓這些值接近，以消除原影象中的噪聲。 *模擬中值濾波 >>> import random >>> import numpy as np

【python學習筆記】3：LRU(最近最少使用頁面置換)演算法

題目描述：一程序剛獲得3個主存塊的使用權，若該程序訪問頁面的次序是1,2,3,4,1,2,5,1,2,3,4,5。當採用LRU演算法時發生的缺頁次數是多少？ LRU是最近最少使用頁面置換演算法，該演算法用一個開放的棧來儲存當前正在使用的各個頁面號。當有一個新的頁面要被訪

【python學習筆記】6：用Gauss-Legendre求積公式近似求積分值

高斯-勒讓德求積公式給出了一個定積分的近似求法：不妙的是這種求法對上下限要求為1和-1，但是因為積分可以變限，所以求任意定積分只要做變換就好：用高斯公式求積分的近似值，精確度是非常高的，一般用幾個點就可以得到很不錯的近似值。這裡用了三點高斯積分和五點高斯積分。

【python學習筆記】列表、元組和字典的迭代

在python中，列表和元組的迭代是通過for....in....來完成的； >>> a=[1,2,3,4,5,6,7] >>> for index in a: ... print(index) ... 1 2 3 4 5

【python學習筆記】35：爬蟲基礎和相關產品API(和風天氣)使用例項

GET請求獲取響應內容

POST請求有道翻譯服務

BeautifulSoup網頁解析器

用API爬取天氣預報資料

相關推薦