Python3爬蟲（一）抓取網頁的html

阿新 • • 發佈：2019-01-06

因為程式碼只有幾行，所以可以先貼程式碼：

import  urllib.request
url = r'http://douban.com'
res = urllib.request.urlopen(url)
html = res.read().decode('utf-8')
print(html)

第一行，匯入 urllib庫的request模組

第二行，指定要抓取的網頁url，必須以http開頭的

第三行，呼叫 urlopen（）從伺服器獲取網頁響應（respone），其返回的響應是一個例項

第四行，呼叫返回響應示例中的read（）函式，即可以讀取html，但需要進行解碼，具體解碼寫什麼，要在你要爬取的網址右鍵，檢視原始碼，

紅框中的 charset= 則表示編碼格式，我要爬取的網頁編碼為 utf-8，所以，解碼我也填utf-8，如果是gbk2313，則填寫的是GBK

（更為簡單的方法是在程式中呼叫info()獲取網頁頭部來檢視編碼方式：）

檢視網頁的頭部資訊以確定網頁的編碼方式：

import urllib.request

res = urllib.request.urlopen('http://www.163.com')
print(res.info())  #info()方法 用來獲取網頁頭部

執行結果：

可以看出次網頁的編碼是 GBK。

第五行，列印就行。

但上面的寫法是裸奔型寫法，就是沒有頭部的，有一些網頁你沒有頭部是不能訪問的，會返回 403錯誤。

最正式的做法是仿照http的過程，在用爬蟲獲取網頁的時候，加入頭部，偽裝成瀏覽器。

Http 其實就是請求/響應模式，永遠都是客戶端向服務端傳送請求，然後服務端再返回響應。

有一個問題就是頭部改怎麼加？可以開啟你的瀏覽器，按F12，（我用的是谷歌瀏覽器）

F12開啟開發者工具模式後，進入一個隨便一個網頁，開發者工具就會有東西出現

雙擊name欄的任意一個，在Headers 一欄會有個 User-Agent ，複製藍色部分，藍色部分就是頭部。再把藍色部分加入到爬蟲程式中，見下面程式碼：

這種方式是推薦的

import urllib.request

url = r'http://douban.com'
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
req = urllib.request.Request(url=url,headers=headers)
res = urllib.request.urlopen(req)
html = res.read().decode('utf-8')
print(html)

注意：urllib.request.Request（）用於向服務端傳送請求，就如 http 協議客戶端想服務端傳送請求

而 urllib.request.urlopen（）則相當於伺服器返回的響應

Python3爬蟲（一）抓取網頁的html

因為程式碼只有幾行，所以可以先貼程式碼： import urllib.request url = r'http://douban.com' res = urllib.request.urlopen(url) html = res.read().decode('utf-

Python3 爬蟲（一）-- 簡單網頁抓取

序一直想好好學習一下Python爬蟲，之前斷斷續續的把Python基礎學了一下，悲劇的是學的沒有忘的快。只能再次拿出來濾了一遍，趁熱打鐵，借鑑眾多大神的爬蟲案例，加入Python網路爬蟲的學習大軍~~~ 爬蟲之前在著手寫爬蟲之前，要先把其需要的知識線路理清楚。

python3爬蟲（一）requests庫學習

前段時間利用零散時間在mooc上跟著嵩天老師學習了python爬蟲的相關知識，於是想把自己的學習經歷寫下來，對爬蟲的相關知識做一個歸納總結，文中如果有錯誤或者是不嚴謹的地方，歡迎指出和交流。下面我們開始介紹requests庫

python 爬蟲（四）抓取Ajax資料

import urllib.request import ssl import json def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKi

PyQt5與爬蟲（一）——爬取某站動畫每週列表

某站動畫列表PyQt程式截圖，可以點選圖片按鈕，然後會開啟谷歌瀏覽器到你選擇的動漫介面。貼程式碼：main.pyfrom PyQt5.QtWidgets import QWidget,QApplication import sys from MyWidget import W

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

Python3 爬蟲（三） -- 爬取豆瓣首頁圖片

序前面已經完成了簡單網頁以及偽裝瀏覽器的學習。下面，實現對豆瓣首頁所有圖片爬取程式，把圖片儲存到本地一個路徑下。首先，豆瓣首頁部分圖片展示這只是擷取的一部分。下面給出，整個爬蟲程式。爬蟲程式

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

爬蟲（一）：爬蟲原理與資料抓取

1.通用爬蟲和聚焦爬蟲根據使用場景，網路爬蟲可分為通用爬蟲和聚焦爬蟲兩種. 通用爬蟲通用網路爬蟲是捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目的是將網際網路上的網頁下載到本地，形成一個網際網路內容的映象備份聚焦爬蟲

python爬蟲進階（一）：靜態網頁爬取

一、文章說明本文是在學習過程中的筆記分享，開發環境是win7，Python3，編輯器pycharm，文章中若有錯誤歡迎指出、積極討論。另外，推薦一個比較好的爬蟲教程二、課程基礎 1、HTML和CSS 爬蟲和網頁內容處處打交道，首先要掌握一部分前端內容。參考教程： 2、

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

執行平臺： Windows Python版本： Python3.x 一、庫檔案

python3爬蟲（二）-使用beautiful soup 讀取網頁

Beautiful Soup簡介簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

爬蟲（一）——用Requests模組獲取網頁資訊

呼叫requests庫裡面的get方法，獲取網頁的資訊，呼叫page.text獲取網頁原始碼，然後通過print打印出網頁原始碼 import requests page = requests.get(

四周實現爬蟲系統（1）-抓取tripadvisor貓途鷹網站資料資訊

1.獲取單頁景點資訊 2.觀察網址特徵，獲取多頁景點資料 3.利用cookie資訊實現偽登入，獲取個人儲存清單的景點資訊 4.利用 device mode 實習反爬資訊的抓取-圖片資訊 #技巧1：通過模擬手機頁面獲得反爬取資訊,頁面右擊檢查，device

Python爬蟲（一）--城市公交網路站點資料的爬取

作者：WenWu_Both 出處：http://blog.csdn.net/wenwu_both/article/ 版權：本文版權歸作者和CSDN部落格共有轉載：歡迎轉載，但未經作者同意，必須保留此段聲必須在文章中給出原文連結；否則必究法律責任

python 爬蟲實戰（一）爬取豆瓣圖書top250

import requests from lxml import etree with open('booktop250.txt','w',encoding='utf-8') as f: f

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

Python3爬蟲（一）抓取網頁的html

相關推薦