Python 爬蟲（一）綜述

阿新 • • 發佈：2019-01-17

開始爬蟲之前先看看這些來打個底吧~

1.首先，什麼是爬蟲呢？

爬蟲（spider），可以理解為在網路上爬行的一隻蜘蛛，爬蟲在網際網路這張網上爬來爬去地找資源，如果它遇到想要的資源，就會把它抓取下來。至於什麼資源是想要的抓取的？這個由你來控制它咯。
概括來說，爬蟲就是一種按照一定的規則，自動的抓取全球資訊網資訊的程式或者指令碼。

2.瀏覽網頁的過程

在我們瀏覽網頁的時候，看到的東西是怎麼來的呢，這個過程其實是這樣的：我們輸入網址之後，經過DNS伺服器，找到伺服器主機，向伺服器發出一個請求，伺服器經過解析之後，返回給使用者 HTML、JS、CSS 等檔案，瀏覽器把這些檔案渲染解析出來，我們就可以看到形形色色的網頁內容了。
因此，我們看到的網頁實質是由 HTML 程式碼構成的，爬蟲爬來的便是這些內容了，通過分析和過濾這些 HTML 程式碼，實現對圖片、文字等資源的獲取。（這樣想來是不是也很簡單，也就是獲取網頁原始碼再進行分析過濾得到想要的內容就好了。）

3.URL的含義

URL，即統一資源定位符，也就是我們說的網址，URL是對可以從網際網路上得到的資源的位置和訪問方法的一種簡潔的表示，是網際網路上標準資源的地址。網際網路上的每個檔案都有一個唯一的URL，它包含的資訊指出檔案的位置以及瀏覽器應該怎麼處理它。

URL的格式由三部分組成：
①第一部分是協議(或稱為服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括埠號)。
③第三部分是主機資源的具體地址，如目錄和檔名等。

爬蟲爬取資料時必須要有一個目標的URL才可以獲取資料，因此，URL是爬蟲獲取資料的基本依據，準確理解它的含義對爬蟲學習有很大的幫助。

4 環境的配置

恩，我是在Windows下用的 PyCharm。

5.Python urllib和urllib2 庫的用法

urllib和urllib2庫是學習Python爬蟲最基本的庫，利用這個庫我們可以得到網頁的內容，並對內容用正則表示式提取分析，得到我們想要的結果。

6.Python 正則表示式

Python正則表示式是一種用來匹配字串的強有力的武器。它的設計思想是用一種描述性的語言來給字串定義一個規則，凡是符合規則的字串，我們就認為它“匹配”了，否則，該字串就是不合法的。

7.爬蟲框架

如果基本的爬蟲知識都已經掌握了，那就來用一下Python框架吧。我用的是Scrapy框架。這個框架有什麼強大的功能呢？下面是它的官方介紹：

HTML, XML源資料 選擇及提取 的內建支援
提供了一系列在spider之間共享的可複用的過濾器(即 Item Loaders)，對智慧處理爬取資料提供了內建支援。
通過 feed匯出 提供了多格式(JSON、CSV、XML)，多儲存後端(FTP、S3、本地檔案系統)的內建支援
提供了media pipeline，可以 自動下載 爬取到的資料中的圖片(或者其他資源)。
高擴充套件性。您可以通過使用 signals ，設計好的API(中介軟體, extensions, pipelines)來定製實現您的功能。
內建的中介軟體及擴充套件為下列功能提供了支援:
cookies and session 處理
HTTP 壓縮
HTTP 認證
HTTP 快取
user-agent模擬
robots.txt
爬取深度限制
針對非英語語系中不標準或者錯誤的編碼宣告, 提供了自動檢測以及健壯的編碼支援。
支援根據模板生成爬蟲。在加速爬蟲建立的同時，保持在大型專案中的程式碼更為一致。詳細內容請參閱 genspider 命令。
針對多爬蟲下效能評估、失敗檢測，提供了可擴充套件的 狀態收集工具 。
提供 互動式shell終端 , 為您測試XPath表示式，編寫和除錯爬蟲提供了極大的方便
提供 System service, 簡化在生產環境的部署及執行
內建 Web service, 使您可以監視及控制您的機器
內建 Telnet終端 ，通過在Scrapy程序中鉤入Python終端，使您可以檢視並且除錯爬蟲
Logging 為您在爬取過程中捕捉錯誤提供了方便
支援 Sitemaps 爬取
具有快取的DNS解析器

———扯了這麼多，下節再進入正題好了~

Python 爬蟲（一）綜述

Python 爬蟲（一）綜述

Python爬蟲（一）：基本概念

python爬蟲（一）

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

自學Python爬蟲（一）認識爬蟲

Python爬蟲（一）：編寫簡單爬蟲之新手入門

python爬蟲（一）---智聯招聘實戰

python爬蟲（一）--------selenium+python+PhantomJS的使用

python 爬蟲（一）urllib使用demo

python爬蟲（一）爬取豆瓣電影Top250

python爬蟲（一）urllib庫基本使用

零基礎入門Python爬蟲（一）

python爬蟲（一）Urllib使用

Python爬蟲（一）--城市公交網路站點資料的爬取

python爬蟲（一）BeautifulSoup簡介

Python爬蟲（一）：爬蟲偽裝

python爬蟲（4）——正則表達式（一）

Python從零開始寫爬蟲（一）requests庫使用

python網路爬蟲（一）

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

Python 爬蟲（一）綜述

相關推薦