python進階一（簡易爬蟲一）

阿新 • • 發佈：2018-11-12

一、爬蟲的基本知識：

1、爬蟲的理解：

（1）網路爬蟲，即Web Spider，網路蜘蛛是通過網頁的連結地址來尋找網頁的。

2、爬蟲的設計過程：

根據網頁的三大特徵（框架、樣式、行為），傳送請求獲取資料，篩選資料儲存，資料有url地址，繼續（傳送請求獲取數據）。

3、爬蟲的分類：

通用爬蟲：目標、流程（爬取網頁 - 儲存資料 - 內容處理 - 提供檢索/排名服務）、遵循Robots協議。

聚焦爬蟲：與通用搜索引擎爬蟲的區別在於： 聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選，儘量保證只抓取與需求相關的網頁資訊。

二、傳送請求獲取資料（requests包）：

requests.get(url,params=None,**kwargs) 、reguests.post(url,date=None,json=None,**kwargs)

幫助傳送請求，這個作為入門的工具還是不錯的，對了解一些爬蟲的基本理念，掌握爬蟲爬取的流程有所幫助。

1、requests安裝：

cmd安裝：

anacanda安裝：

2、基本請求get/post：

注意：（1）url是必須的引數，且http協議必須要寫。

（2）. text 得到的是 str 型別。

import requests
url2 = 'http://httpbin.org/get'
url3 = 'http://httpbin.org/post'
r = requests.get(url2)
print(r.text)

print(type(r.text))                       <class 'str'>   .text是字串型別。

r1 = requests.post(url2)
print(r1.text)

import requests
url2 = 'http://www.ibeifeng.com'
#
r = requests.get(url2)
print(r)     # <Response [200]>   得到響應物件， 200表示成功
print(type(r))      #   <class 'requests.models.Response'>  檢視返回型別
print(r.status_code)      # 檢視響應碼    200
#1. 正在請求
#2. 請求成功
#3. 重定向
#4. 客戶端有問題
#5. 伺服器的問題
print(r.encoding)          # gbk 檢視編碼方式
print(r.cookies)
print(r.text)   #編碼是gbk沒有亂碼，以字串形式顯示，如果是json檔案，需要loads後才可以使用字典。

                 .text 亂碼時的處理方法。
url3 = 'https://www.woyaogexing.com/'
r2 = requests.get(url3)
print(r2.text)         #亂碼。
print(r2.content.decode('utf-8'))   # 以位元組形式展示並用utf-8解碼得到正常結果。

3、基本請求get傳遞引數：

get傳遞引數用 params ，post 傳遞引數用 data

import requests
url = 'http://httpbin.org/get'
pay = {'name':'yangmi','age':'30'}            # 用字典的格式。相當於將兩個鍵值對傳到args對應的value中。
r = requests.get(url,params=pay)      # 傳遞引數
print(r.text)
print(r.url)             #結果：  http://httpbin.org/get?name=yangmi&age=30

4、基本請求get偽裝瀏覽器：

import requests
url = 'https://www.zhihu.com'
r = requests.get(url)
print(r.text)                   # 被阻攔

dict1 = {
    'name':'zhangsan',
    'age':'20'
}
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}         # get 訪問新增標頭檔案仿照 瀏覽器。
r1 = requests.get(url,params=dict1,headers=headers)       # params 新增引數，headers 設定標頭檔案。
print(r1.text)        # 訪問成功
print(r1.url)      # 結果：https://www.zhihu.com/signup?next=%2F%3Fname%3Dzhangsan%26age%3D20

5、get請求解析json資料（附加模組json的用法）：

import json
 
data = {
    'name' : 'ACME',
    'shares' : 100,
    'price' : 542.23
}
 
json_str = json.dumps(data)   將python字典物件轉化為json字串。



data = json.loads(json_str)  將json字串轉化為python字典物件

方法一：

import requests
url = 'https://github.com/time.json'
r = requests.get(url)
print(r.text)
print(r.text['message'])           # 報錯
print(r.json())             # requests 內部有一個json解碼器，可以將 json 字串格式轉化為 python的物件。
print(r.json()['message'])  # 可以獲取字典的values

方法二：

利用插入json模組的方法：

import requests
import json           # 插入json模組
url = 'https://github.com/time.json'
r = requests.get(url)
dict1 = json.loads(r)        # 錯誤，因為 r 是響應物件，而不是json字串。
dict2 = json.loads(r.text)   # 將json字串轉化為python字典物件。
print(dict2['message'])

6、利用get下載音訊、圖片：

                     爬取圖片
import requests
url = 'http://wx4.sinaimg.cn/large/67b2eab9ly1flwuchb5vlj20dw0dwdi1.jpg'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
text = requests.get(url,headers=headers,stream=True)
with open('1.jpg','wb') as file:
    for i in text.iter_content(1024):
        file.write(i)
                    爬取音訊
import requests
url = 'https://m10.music.126.net/20181112201426/6a0a71e1afe74bf40d48a2598c4cead9/ymusic/3020/0523/bdb1/9b15432eb04a5b4ba66c64409da4b27d.mp3'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
text = requests.get(url,headers=headers,stream=True)
with open('1.mp3','wb') as file:
    for i in text.iter_content(1024):
        file.write(i)

7、獲取網頁的cookie：

                   獲取 cookie
import requests
url= 'http://www.ibeifeng.com'
a = requests.get(url)
print(a.cookies)

                    向網站傳送cookie
import requests
url= 'http://httpbin.org/get'
a = requests.get(url)
print(a.text)
                  第一種
a1 = requests.get(url,cookies={'name':'yangmi'})
print(a1.text)
                   第二種 cookies可以放在hearders中。
a1 = requests.get(url,cookies={'name':'yangmi'})
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    'cookies':"{'name':'yangmi'}"     # 注意，headers是 str 型別，因此 {'name':'yangmi'} 要加 “”。
}
print(a1.text)

三、post請求：

1、post請求新增引數（data =）：

post訪問新增引數為data，get是params

2、post請求傳送cookie（cookies =）：

3、post請求，傳送檔案（files =）到伺服器中：

with open('post_111.txt','wb') as file:
    pass
import requests
url= 'http://httpbin.org/post'
files = {'file': open('post_111.txt','rb')}
a = requests.post(url,files=files)
print(a.text)

4、post請求，傳送json資料：

5、請求超時與異常處理：

（1）超時設定timeout:

你可以告訴 requests 在經過以 timeout 引數設定的秒數時間之後停止等待響應。基本上所有的生產程式碼都應該使用這一引數。如果不使用，你的程式可能會永遠失去響應：

r = requests.get('http://github.com', timeout=0.1) # 超時設定
print(r.text)

（2）異常處理：

                 異常處理：
list1=[1,5]
list1[3] = 10
try:
    print(list2)
    print(list1)                
except IndexError as e:          # 索引錯誤 跳過
    print(e)
except NameError as e:    # 變數未定義錯誤 跳過
    print(e)
except BaseException as e:    # try程式碼塊錯誤跳過。
    print(e)

print('a')
print('a')
print('a')

python進階一（簡易爬蟲一）

一、爬蟲的基本知識： 1、爬蟲的理解：（1）網路爬蟲，即Web Spider，網路蜘蛛是通過網頁的連結地址來尋找網頁的。 2、爬蟲的設計過程：根

Python進階之（web框架基礎）

\n 開發環境 one tran 處理 nco UNC 提交數據拼接一、web框架本質我們可以這樣理解：所有的Web應用本質上就是一個socket服務端，而用戶的瀏覽器就是一個socket客戶端。這樣我們就可以自己實現Web框架了。 import socket

python進階學習（一）

分享 target for buffer yun lena hello pri true 同樣是《python基礎教程（第二版）》的內容，只是後面內容學起來，相比前面會比較有趣，也更加實用，所以，將“基礎”改為“進階”。 python 電子書分享地址：http://yu

python進階學習（一）--多線程編程

不用才會睡眠關鍵字參數 war 信息 target 函數傳遞消息隊列 1. 多線程概念：簡單地說操作系統可以同時執行多個不用程序。例如：一邊用瀏覽器上網，一邊在聽音樂，一邊在用筆記軟件記筆記。並發：指的是任務數多余cpu核數，通過操作系統的各種任務調度算

python進階之微信跳一跳外掛

開發日誌：開發流程：開始執行-->配置手機和電腦（連線，截圖等功能）-->截圖-->分析棋子棋盤的座標-->計算棋子棋盤的距離-->執行按壓手機螢幕跳躍的功能-->等待1~2秒-->返回“截圖”重複執行外掛適應不目前市場上絕大多數的安

Python進階內容（五）--- type和object的關系

行動關系函數 tex 進階類模板 clas lin cnblogs 面向對象編程（OOP）的兩大關系繼承與實現繼承關系：子類繼承自父類（base），可以使用父類的一些方法（method）和屬性（attribute）實現關系：以類為模板，實例化一個對

Python進階內容（六）--- 函數式編程

遞歸斐波那契數列 blog n-1 range 正是 n) 偽代碼 ret 斐波那契數列(Fibonacci)的遞歸與非遞歸實現費波那契數列由0和1開始，之後的數就由之前的兩數相加 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 1

Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十八)-Python3爬蟲實踐

Python 進階用法（持續更新）

裝飾器（Decorator） Python 的裝飾器是任何可呼叫物件（callable object），用於修改函式（Function）或類（Class）。按照用途可分為：函式裝飾器類裝飾器裝飾器的介面定義可概括為：接收某個函式或類的引用作為引數；修改該函式或類並返回

Python進階筆記（3）_ 模組和包

匯入模組要使用一個模組，我們必須首先匯入該模組。Python使用import 語句匯入一個模組。例如，匯入系統自帶的模組 math：import math 你可以認為 math 就是一個指向已匯入模組的變數，通過該變數，我們可以訪問 math 模組中所定義的所有公開的函式

乾貨 | python進階系列（三）--序列

樹狀數組的進階運用（Stars 數星星）

p s 計算 right star http 復雜一個 examine maps 英文原題 Problem Description Astronomers often examine star maps where stars are represented by poi

spring cloud進階二（消費者rest+ribbon）

在上一篇文章，講了服務的註冊和發現。在微服務架構中，業務都會被拆分成一個獨立的服務，服務與服務的通訊是基於http restful的。Spring cloud有兩種服務呼叫方式，一種是ribbon+restTemplate，另一種是feign。在這一篇文章首先講解下基於ribbon+rest。一

【6】C++進階系列（動態記憶體分配）

問題：之前在寫程式的時候計劃好我們需要哪些資料，都定義好，但是有些時候我們並不知道我要處理的程式規模有多大，也不知道陣列開多大合適，是儘量大？分配了太大空間可能會造成記憶體的浪費。只有在程式真正執行起來才會知道這次執行要處理的資料規模有多大——那就有人想，能不能用變數來確定陣

IntelliJ IDEA的外掛使用進階二（ idea的破解）

我們在使用idea的時候都是需要進行破解的，不然過一段時間idea就會提示使用已過期，下面我們就講解一下idea使用jar包進行破解的詳細步驟。 idea破解步驟：第一步：我們需要下載版本對應的破解jar包，我的idea版本是IntelliJ IDEA 2018.2，我下載的是Jetb

Android進階記錄（寫給自己）

2018年已經過了大半，在目前較為空閒的時間，對著大半年的工作做個總結近況目標期望近況這一年，團隊的主專案都是iOS專案，雖然也算入了門，參與並完成開發工作，但是僅僅是完成初級工作，而且因為自

[html之rem]手機端頁面自適應解決方案—rem佈局進階版（附原始碼示例）

手機端頁面自適應解決方案—rem佈局進階版（附原始碼示例）一年前筆者寫了一篇《手機端頁面自適應解決方案—rem佈局》，意外受到很多朋友的關注和喜歡。但隨著時間的推移，該方案已然過時，故為大家介紹一個目前我極力推薦使用的，更加完美的方案——rem佈局（進階版）另

手機端頁面自適應解決方案—rem佈局進階版（附原始碼示例）

但隨著時間的推移，該方案已然過時，故為大家介紹一個目前我極力推薦使用的，更加完美的方案——rem佈局（進階版）地址：http://www.jianshu.com/p/985d26b40199點選開啟連結該方案使用相當簡單，把下面這段已壓縮過的原生JS（原始碼

Java8系列--Java Stream進階篇（流的操作）

1 流的操作的特點 1.1 流的操作的核心機制　　流的操作區別於傳統的集合操作的一大特點是，在Java 8中，流的操作是通過將外部迭代轉向內部迭代來實現的。　　在Java 8 Stream API中，流的操作實際上相當於對資料進行一系列的”篩選”操

Elasticsearch頂尖高手系列：高手進階篇（最新第二版）

adp cli UNC 最小 matching 過濾 gate 總結加載課程大綱:第1節結構化搜索_IT技術論壇案例背景介紹第2節結構化搜索_在案例中實戰使用term filter來搜索數據第3節結構化搜索_filter執行原理深度剖析（bitset機制與c

python進階一（簡易爬蟲一）

相關推薦