1. 程式人生 > >pyhont---信息的爬取與提取---requests庫

pyhont---信息的爬取與提取---requests庫

信息 -- header esp 修改 bsp sts 字符串 cep

python --requests能爬取網頁的信息

Requests庫的七個主要方法
request(method.url.**kwargs) 構造一個請求,支撐以下各方法的基礎方法
  get() 獲取HTML網頁的主要方法,對應於http的get
  head() 獲取HTML網頁頭信息的方法,網頁中的head部分
  post() 向網頁提交post請求,對應於http的post
  put() 向網頁提交Put請求,對應於http的put
  patch()向HTML網頁提交局部修改請求,對應於HTTP的patch
  delete() 向HTML網頁提交刪除請求,對應於HTTP的delete

response對象的五個常用屬性:
  r.status_code 200表示連接成功
  r.text http響應內容的字符串形式,即url對應網頁內容
  r.encoding 從httpheader中猜測響應內容編碼方式
  r.apparent_encoding 從內容中分析出響應內容編碼方式
  r.content http響應內容的二進制形式

get()方法獲取資源的一般流程:
  r.status_code 檢查連接狀態
  r.text r,encoding r.apparent_encoding 等解析網頁內容

通用框架

import requests
def getHtml(url):
    try:
        r=requests.get(url) ‘‘‘/*返回一個response對象*/ ‘‘‘
        r.raise_for_status
        r.encoding=r.apparent_encoding
        return  r.text;
    except:
        print("爬取失敗")

  

pyhont---信息的爬取與提取---requests庫