1. 程式人生 > >爬蟲學習記錄 ----持續更新

爬蟲學習記錄 ----持續更新

本博文主要記錄一些在學習爬蟲過程遇到的一些小技巧

============================================================================

3、獲取網頁的文字的編碼格式

import  requests

url = 'https://movie.douban.com/top250?start=25&filter='
r = requests.get(url)
print(r.encoding)

執行結果如下:

utf-8

============================================================================

2、傳遞URL引數(此內容轉摘自 https://blog.csdn.net/kangyan__/article/details/78506243

例如, httpbin.org/get?key=val

  • 想傳遞 key1=value1key2=value2httpbin.org/get
    程式碼如下:
import requests

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)
print(r.url)

執行結果如下:

http://httpbin.org/get?key1=value1&key2=value2

  • 還可以將一個列表作為值傳入:
import requests

payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
r = requests.get('http://httpbin.org/get', params=payload)
print(r.url)

執行結果如下:

http://httpbin.org/get?key1=value1&key2=value2&key2=value3

============================================================================

1、用chrome檢視審查元素

以"豆瓣電影 Top 250"網頁為例,網址:https://movie.douban.com/top250
用chrome開啟網址,有兩種方式開啟審查元素:
①按“F12”鍵,點"Elements",點左上角的箭頭,箭頭變藍後點擊左側頁面的網頁內容,Elements就會跳轉至相應的位置
②快捷組合鍵“Ctrl+Shift+c”可直接開啟審查元素功能,如下圖:
在這裡插入圖片描述

再次按“F12”即可關閉審查元素頁面。