初識網路爬蟲-網路爬蟲概述

阿新 • • 發佈：2018-12-22

3.1 網路爬蟲概述

3.1.1 網路爬蟲及其應用

分類：通用，聚焦，增量，深層
搜尋引擎：通用網咯爬蟲
定向抓取相關網頁中資源：聚焦爬蟲
增量式爬蟲：針對已經更新的網頁資源
深層網路爬蟲：隱藏在表層連結後面的web頁面
網路爬蟲實際運用場景：BT網站；雲盤搜尋；

3.1.2 網路爬蟲結構

在這裡插入圖片描述

3.2 HTTP請求python實現

三種方式：urllib2/urllib，httplib/urllib以及Requests

3.2.1 urllib2/urllib實現

1.向指定的url發出請求：

import urlliib2
response = urllib2.urlopen('http://www.zhihu.com')
html = response.read()
print(html)

分解為請求和響應：

import urllib2
#請求
request = urllib2.Request('http://www.zhihu.com')
#響應
response = urllib2.urlopen(request)
html = response.read()
print(html)

POST請求，新增請求資料

import urllib
import urllib2
url = 'http://www.zhihu.com'
postdata = {'username','qiye','passward','qiye-pass'}
data = urllib.urlcode(poatdata)
req = urllib2.Request(url,data)
response = urllib2.urlopen(req)
html = response.read()

2.請求頭headers處理

import urllib
import urllib2
url = 'http://www.zhihu.com'
user_agent = '...'
referer = '...'
postdata = {...}
#將user-agent和referer寫入頭資訊
headers = {'User-Agent':user-agent,'Referer：referer}
data = urllib.urlcode(poatdata)
req = urllib2.Request(url,data,headers)
response = urllib2.urlopen(req)
html = response.read()

3.cookie處理
得到某個cookie項的值

import urllib2
import cookielib
cookie = cookielib.CookieJar()
#設定開啟方式
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
response = opener.open('...')
for item in cookie:
    print item.name+':'+item.value

#自己新增cookie內容

import urllib2
opener = urllib2.build_opener()
opener.addheaders.append(('Cookie','email='+"..."))
req = urllib2.Request("...")
response = opener.open(req)
print(response.headers)
retdata = response.read()

4.設定超時資訊Timeout

import urllib2
request = urllib2.Request('...')
response = urllib2.urlopen(request,timeout=2)
html = response.read()
print(html)

5.獲取HTTP響應碼

import urllib2
try:
    response = urllib2.urlopen('...')
    print(response)
except urllib2.HTTPError as e:
    if hasattr(e,'code'):
        print('Error code:',e.code)

6.重定向
在這裡插入圖片描述
7.Proxy的設定

import urllib2
proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})
opener = urllib2.build_opener([proxy,])
urllib2.install_operner(opener)
response = urllib2.urlopen('...')
print(response.read())

3.2.2 http/urllib實現

httplib模組式一個底層模組，可以看到HTTP請求的每一步，在爬蟲開發過程基本用不到，這裡進行知識普及：
在這裡插入圖片描述

3.2.3 更人性化的Requests

1.完整請求響應模型
GET:

import requests
r = requests.get('...')
print(r.content)

POST:

import requests
postdata = {...}
r = requests.post('...',data=postdata)
print(r.content)

在這裡插入圖片描述
2.響應與編碼

import requests
r = resquests.get('...')
print('content-->>'+r.content)
print('text-->>'+r.text)
print('encoding-->>'+r.encoding)
r.encoding = 'utf-8'
print('new text -->>'+r.text)

字串/檔案編碼檢測模組chardet
直接將chardet檢測到的編碼，賦值給r.encoding實現編碼，r.text輸出就不會有亂碼

import requests
r = request.get('...')
print(chardet.detect(r.content))
r.encoding = chardet.detect(r.content)['encoding']
print(r.text)

3.請求頭headers處理

import requests
user_agent = '...'
headers = {'User-Agent':user_agent}
r = requests.get('...',headers = headers)
print(r.content)

4.響應碼code和響應頭headers的處理
獲取響應碼：status_code欄位
獲取響應頭：headers欄位

import requests
r = requests.get('...')
if r.status_code == requests.codes.OK:
    print(r.status_code)#獲取響應碼
    print(r.headers)#獲取響應頭
    print(r.headers.get('content-type'))#獲取其中欄位
else:
    r.raise_for_status()#主動丟擲異常

5.cookie處理
獲取cookie欄位

import requests
user_agent = '...'
headers = {'User-Agent':user-agent}
r = requests.get('...',headers = headers)
for cookie in r.cookie.keys():
    print(cookie+':'+r.cookie.get(cookie))

新增自定義cookie

import requests
user_agent = '...'
headers = {'User-Agent':user-agent}
cookies = dict(name='qiye',age='10')
r = requests.get('...',headers = headers,cookies = cookies)
print(r,text)

Requests提供session概念自動給程式新增cookies

import requests
loginurl = '...'
s = requests.Session()
#首先訪問登陸介面作為遊客，伺服器會分配一個cookie
r = s.get(loginurl,allow_redirects=True)
datas = {'name':'qiye',apsswd':'qiye'}
#向登入連結傳送post請求，驗證成功，遊客許可權轉為會員許可權
r = s.post(loginurl,data,allow+True)
print(r,text)

6.重定向與歷史資訊
處理重定向：allow_redirects
檢視歷史資訊：r.history

import requests
r = requests.get('...')
print(r.url)
print(r.status_code)
print(r.history)

7.超時設定

requests.get('...',timeout=2)

8.代理設定

import requests
proxies = {"....","......"}
requests.get("...",proxies = proxies)

初識網路爬蟲-網路爬蟲概述

3.1 網路爬蟲概述 3.1.1 網路爬蟲及其應用分類：通用，聚焦，增量，深層搜尋引擎：通用網咯爬蟲定向抓取相關網頁中資源：聚焦爬蟲增量式爬蟲：針對已經更新的網頁資源深層網路爬蟲：隱藏在表層連結後面的web頁面網路爬蟲實際運用場景：BT網站；雲盤搜尋

爬蟲--網路資料採集

用一週的時間翻完了python網路資料採集，在此整理一下。 0x000資料採集資料採集是一個很寬泛的概念，總的來說應該包含以下部分。選擇採集目標源–>組織構建資料庫–>編寫爬蟲–>資料清洗–>資料整理–>存入資料庫，一般情

python爬蟲#網路請求requests庫

中文文件 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html requests庫雖然Python的標準庫中 urllib模組已經包含了平常我們使用的大多數功能，但是它的 API 使用起來讓人感覺不太好，而 Requests宣傳是

初識Scrapy,在充滿爬蟲的世界裏做一個好公民

java 下載抽取它的定性高質量事件新的主機歡迎來到你的Scrapy之旅。通過本文，我們旨在將你從一個只有很少經驗甚至沒有經驗的Scrapy初學者，打造成擁有信心使用這個強大的框架從網絡或者其他源爬取大數據集的Scrapy專家。本文將介紹Scrapy，並且告

計算機網路（1）-計算機網路概述：網路結構（網路邊緣、接入網路、網路核心）

文章目錄 1. 計算機網路基本概念 2. 計算機網路結構 3. 網路核心之資料交換 1. 電路交換 2. 多路複用技術 3. 報文交換 4. 分組交換（因特網）

計算機網路：第一章概述

重點：網際網路邊緣部分和核心部分的作用，其中包含分組交換的概念計算機網路的效能指標計算機網路分層次的體系結構，包含協議和服務的概念 1.1 計算機網路在資訊時代的作用有三類大家都非常熟悉的網路，即電信網路、有線電視網路和計

【計算機網路學習筆記】概述

網際網路概述計算機網路由若干結點（node）和連線這些結點的鏈路（link）組成。網路中的結點可以是計算機、集線器、交換機或路由器等。網路之間還可以通過路由器互連起來，這就狗策了一個覆蓋範圍更大的計算機網路。這樣的網路稱為網際網路（internetwork或inter

網路資訊保安模型概述

1.PPDR安全模型

網路程式設計之簡介概述

一、網路傳輸三要素： 1.找到對方IP IP地址使用4個8位二進位制組成，每個8位二進位制可以轉化為0~255的十進位制數字。 127.0.0.1 2.資料要傳送到對方指定的應用程式上，為了標識這些應用程式，所以給這些網路應用程式都有用數字進行標識埠從0~65

人工神經網路（一）概述

百科解釋：人工神經網路（Artificial Neural Network，即ANN ），是20世紀80 年代以來人工智慧領域興起的研究熱點。它從資訊處理角度對人腦神經元網路進行抽象，建立某種簡單模型，按不同的連線方式組成不同的網路。在工程與學術界也常直接簡稱為神

26 API-網路程式設計(網路概述,Socket通訊機制,UDP協議傳送和接收資料,TCP協議傳送和接收資料)

1:網路程式設計(理解) (1)網路程式設計：用Java語言實現計算機間資料的資訊傳遞和資源共享(2)網路程式設計模型 l網路模型一般是指 OSI（Open System Interconnection開放系統互連）參考模型 TCP/IP參考模型 (3)網路程式

網路作業系統第一章概述

1.什麼是網路作業系統？網路作業系統具有哪些基本功能？ 1）網路作業系統(Network Operating System，NOS)，網路使用者與計算機網路的接口，能對計算機的軟體和硬體資源進行關聯，具備單機操作功能，還像網路計算機提供網路通訊和網路資源共享，並且為網路使用者提供網路服務. 2）（1）網

計算機網路探究（一）網路5層協議概述

我們每天使用網際網路，你是否想過，它是如何實現的？全世界幾十億臺電腦，連線在一起，兩兩通訊。上海的某一塊網絡卡送出訊號，洛杉磯的另一塊網絡卡居然就收到了，兩者實際上根本不知道對方的物理位置，你不覺得這是很神奇的事情嗎？網際網路的核心是一系列協議，總稱為"網際網

計算機網路基礎 1.0 -- 概述

概念理解報文：在網路中傳送的資料塊成為報文在傳送報文之前，通常會把陣列分組，每個組都有個包頭和資料組成，包頭中包含了諸如目標地址和源地址等重要資訊，這樣才保證了資料能夠有目的的在網路中的傳輸主機是使用者用來處理資訊的，而路由器則是用來轉發分組的，就是將

Pytorch_第十篇_卷積神經網路（CNN）概述

# 卷積神經網路（CNN）概述（包含例子） --- ## Introduce **卷積神經網路**（convolutional neural networks），簡稱**CNN**。卷積神經網路相比於人工神經網路而言更適合於影象識別、語音識別等任務。==本文主要涉及卷積神經網路的概念介紹，首先介紹卷積神經網

【小菜學網路】物理層概述

# 通訊模型假設，計算機網路現在還沒有被髮明出來，作為電腦科學家的你，想在兩臺主機間傳輸資料，該怎麼辦？ ![](http://cdn.fasionchan.com/course%2Ftcpip%2Fphysical-layer%2Ff372dfe60c9d9c61dfdc100a6a7c160e.sv

2017.07.28 Python網絡爬蟲之爬蟲實戰今日影視2 獲取JS加載的數據

常見實戰交互影視獲取框架並且 htm 處理 1.動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過js / AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成<divi

python爬蟲 ----文章爬蟲（合理處理字符串中的 ........）

code 分享 png bsp str sleep htm page 影響 import urllib.request import re import time num=input("輸入日期（20150101000）：") def openp

Python爬蟲2------爬蟲屏蔽手段之代理服務器實戰

地址 eight pan urlopen 字典 3.1 第一個函數參數 div 1、代理服務器：一個處於客戶端與互聯網中間的服務器，如果使用代理服務器，當我們瀏覽信息的時候，先向代理服務器發出請求，然後由代理服務器向互聯網獲取信息，再返回給我們。 2、代碼

Python爬蟲知識點——爬蟲的基本原理

知識點一個想要代碼請求原理表達網絡爬蟲服務爬蟲的基本原理爬蟲就是獲取網頁並提取和保存信息的自動化程序獲取網頁：獲取網頁就是獲取網頁的源碼，只要把源碼獲取下來，就可以從中提取想要的消息爬蟲的流程：想網站的服務器發送一個請求，返回的響應體就是網頁

初識網路爬蟲-網路爬蟲概述

3.1 網路爬蟲概述

3.1.1 網路爬蟲及其應用

3.1.2 網路爬蟲結構

3.2 HTTP請求python實現

3.2.1 urllib2/urllib實現

3.2.2 http/urllib實現

3.2.3 更人性化的Requests

相關推薦