爬蟲學習筆記（1）

阿新 • • 發佈：2018-11-03

在訪問網站時，向伺服器傳送請求主要有兩種方式

GET方法請求指定的頁面資訊，並且返回實體主體。

POST方法向指定資源提交資料進行處理請求（例如提交表單或者上傳檔案），資料被包含在請求體中，POST請求可能會導致新的資源建立和/或已有資源的修改。

網頁抓取-----就是將URL中指定的網路資源從網路流中讀取出來並且儲存到本地。在phyton中有很多庫可以用來抓取網頁，這裡我先學習的是urllib2

urllib2 --- urlopen（url，date，timeout）方法

直接傳送一個請求到指定的url地址

在這個方法中區分訪問網頁時是GET方法，還是POST方法就是看data值，有date引數就是POST，否則就是GET。

timeout 就是向指定url地址傳送請求時，如果在timeout規定的時間內，伺服器沒有訪問，網頁就報錯，說伺服器無響應。

response = urlopen("https://www.baidu.com/")

向百度網址傳送請求，並且返回伺服器相應的類檔案物件

換言之，response是類檔案物件。

這個類檔案物件是支援phyton檔案物件的操作方法的，比如read，write等。//read讀取檔案中的全部內容並且返回字串。

獲取網頁原始碼例項：//phyton3格式

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com/")

html = response.read()

print(html)

但是這個類庫有一個缺點，就是其預設的User-Agent是Phyton-urllib/版本號,這會讓伺服器運維人員秒看到你是爬蟲。

作為一個爬蟲，我們一定要重新構建我們的User-Agent

最關鍵的是urllib不支援構造 http 請求

我們使用urllib.request方法重新構建一個請求物件

import urllib.request

request1=urllib.request.Request('http://www.baidu.com/')
request1.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36')
response=urllib.request.urlopen(request1)

html = response.read()
mystr2=html.decode("utf-8")
print(mystr2)

這樣頁面拿到這個請求之後就會認為我們是一個瀏覽器。哈哈

爬蟲學習筆記（1）

在訪問網站時，向伺服器傳送請求主要有兩種方式 GET方法請求指定的頁面資訊，並且返回實體主體。 POST方法向指定資源提交資料進行處理請求（例如提交表單或者上傳檔案），資料被包含在請求體中，POST請求可能會導致新的資源建立和/或已有資源的修改。網頁抓取-----就是將URL中指定

Python資料爬蟲學習筆記（1）讀取併合並Excel

需求：寫一個Python程式，實現多個Excel表格的合併。準備：在E盤3個待合併的測試檔案，如下所示：在每個檔案中的sheet1和sheet2中隨便寫點東西。（1）簡便方法： import openpyxl wb1 = openpyxl.load

Python3爬蟲學習筆記（1.urllib庫詳解）

1.什麼是爬蟲：略，到處都有講解。雖然是入門，不過沒有Python基礎的同學看起來可能費勁，建議稍學下Python 之前學習前端知識也是為了能看懂HTML，便於爬蟲學習，建議瞭解下前端知識 2.re

JAVA學習筆記（1）——a++與++a的區別

col int 演示 opera 解析代碼數據 ++i div 需求：此博客用於解釋i++與++i的區別。過程： 1、名稱解釋 ++：自增，即在原有數據基礎上+1，再賦給原有數據。 2、程序演示（1）代碼： 1 class OperateDemo 2 { 3

vray學習筆記（1）

com .cn 過程分組是把皮膚 mon image 基本 vray是個什麽東西？它是個渲染器。渲染器是個什麽東西？渲染器就是3d軟件裏面把模型畫成一張圖片的東西，渲染的過程就是把3D物體變成2D畫面的過程。模型是個什麽東西？模型就是模型，它由兩部分組成，第

《深入理解C指針》學習筆記（1）--- 指針之外

結構 def form 學習編程 stdlib.h struct 一個 char 　　C語言從誕生之初就非常善於和硬件打交道，經過這麽多年的發展之後，其靈活性和超強的特征是受到幾乎所有程序員的肯定。C語言的這種靈活性很大一部分程度來源與C指針，指針為C語言動態操控內存提供

神箭手爬蟲學習筆記（二）

暫存自動表達 eve doc 常用學習數據 .sh 一，可以使用神劍手已經做好的爬蟲市場直接跑，不需要自己定義爬取規則二，爬蟲市場裏沒有的網站，需要自己去定義規則來爬數據。三，爬取的數據可以先存放在神劍手，也可以放到七牛暫存。（提醒下，網站需要數據備份如果數量不

CS231n 學習筆記（1） Image CLassification

eight function 分享便是數據驅動 rain 分類問題很難特征圖像分類是計算機視覺中的一項核心任務，那麽什麽是圖像分類？例如，給你一個標簽集，其中包括（貓、狗、鳥、卡車、飛機...等）然後給你一張圖片，那麽這張圖片屬於哪個類別呢？這就是一個分類

bootstrap 學習筆記（1）---介紹bootstrap和柵格系統

優先 cal 圖片應用尺寸文件中 lin png ice 　　學習前端許久，對於布置框架和響應瀏覽器用html 和javascript 寫的有點繁瑣，無意間看到這個框架，覺得挺好用的就開始學習了，但是這個框架上面有很多知識，不是所有的都要學的，故將學習筆記和覺得重點的

《挑戰程序設計競賽》學習筆記（1）

設計 allow 而且硬幣 ack ket 程序設計 all 不能 2.2 貪心法貪心法是遵循某種規則，不斷貪心選取當前最優策略的算法設計方法。貪心法的求解思想是通過叠代地選取當前問題的局部最優解法來達成總體最優解，在叠代的過程中不斷地產生局部最優解和下一個與之前

AngularJs學習筆記（1）——ng-app

oot you ctrl span fun 代碼問題筆記 doctype 眾所周知： ng-app 指令用於告訴 AngularJS 應用當前這個元素是根元素。所有 AngularJS 應用都必須要要一個根元素。 HTML 文檔中只允許有一個 ng-app 指令，如果

Nordic nRF52832 學習筆記（1）介紹，入門，與準備工作

例程盜版 path pdf 規範準備但是依然可能　　近來，物聯網已成為大勢所趨，VR與AR正方興未艾，各種手環、遙控、智能家居也在粉墨登場。技術前沿的領航者們已經快馬加鞭，各種意誌與暗示也在上傳下達。物聯網，無線通訊，移動互聯，將成為新的目標與寵兒。最近開的電賽

javascript 高級程序設計學習筆記（1）

元素新的 logs html light begin 知識 gin nbsp 知識補充： var box = document.querySelector(‘#box‘); //"beforebegin" ，在當前元素之前插入一個緊鄰的同輩元素； box.ins

Postgresql 學習筆記（1）

sql postgre 一、環境#配置遠程連接 su postgres vim /var/lib/pgsql/9.4/data/postgresql.conf 編輯配置文件 listen_address=’localhost’ 前面的註釋#去掉，並把’localhost’該為’*’;

Hibernate學習筆記（1）---hibernate快速上手與準備工作

成了 -- 開源工作快速 tar ref orm 磁盤持久層介紹持久化：將內存中的數據保存在磁盤等存儲設備中。持久化對象：指已經存儲在數據庫護著磁盤的業務對象經典的軟件應用體系結構（三層結構）在三層結構中，由於業務邏輯除了負責業務邏輯以外，還要負責相關的數據

jQuery源碼學習筆記（1）

ase tolower nodetype apt jquer 元素 bre 技術分享停止在慕課網上學習jQuery源碼，做一些筆記小研究。第1章節點遍歷第2章文檔處理第3章元素操作第4章樣式操作第5章事件體系第6章數據交互第7章

Struts2學習筆記（1）---相關配置

XML def rec 模塊定向 -1 開發 oba 合並 Struts 2是Struts的下一代產品，是在 struts 1和WebWork的技術基礎上進行了合並的全新的Struts 2框架。 1創建action對象（三種） 1 創建普通的類，不繼承任何類，也不

linux學習筆記（1）

1 linux之父是linus Torvalds（李納斯托沃滋），1991年他在赫爾辛基大學讀書時自己手動寫了一個電腦操作系統，取名linux，並且公布了源代碼。 C語言之父是Dennis M Ritchie(丹尼斯裏奇)。 JAVA之父是詹姆斯高斯林，出生在加拿大，他編寫了多處理器版本的unix操

Node-學習筆記（1）

alua 就是服務器結果 move save toc pda 通過什麽是Node.js 1）Node.js是一個基於Chrome V8引擎的JavaScript 運行環境 2）Node.js使用了一個事件驅動、非阻塞式I/O的模型，使其輕量又高效。 ① 事件

Linux第三周學習筆記（1）

命令 hiho 並且 ron 增加如果 mkdir strong lin Linux第三周學習筆記（1）2.20 特殊權限stick_bit特殊權限stick_bit：意為防刪除位。文件是否可以被某一個用戶刪除，主要取決於該文件所在目錄是否對該用戶具有寫的權限。如果沒有寫

爬蟲學習筆記（1）

相關推薦