[Python][爬蟲01]從零環境搭建到第一個例項

阿新 • • 發佈：2019-01-16

>Python環境

首先，我們需要下載一定版本的Python。

Python版本主要分2.7和3.x兩種選擇，由於Python3中的部分語法和特性對比Python發生了改變，因此一些原有的庫對3的支援不是那麼好。

考慮到日後的某些方便，這裡採用Python 2.7（64bit）。（64位的Python相比，沒有32位Python記憶體上限為2G的侷限。）當然，一般來說，我會同時安裝Python3和Python2.7。

接著，我們需要一款IDE。選擇主要如下：Eclipse、IDEA、PyCharm

Eclipse是完全免費的，而後兩款是收費的（但都有免費的社群版和教育版）。

而Eclipse和IDEA其實嚴格來說是JAVA的編譯器，但是都有相應的Plugins用於對其他語言進行擴充套件；PyCharm則是IDEA的製作公司JetBrains為python專門打造的整合開發環境。
從總的使用體驗來說，IDEA和PyCharm的使用體驗遠好過Eclipse，Eclipse的pyhon環境搭建可>參考此處<；IDEA的python環境搭建可以>參考此處<。

>Spider的抽象級別

在Python中，一個完整的爬蟲（網際網路蜘蛛）的實現方式多種多樣，但主要過程還是兩步：

偽裝HTTP Request並獲取相應的HTML檔案（包括且不限於CSS、JS等內容）；

解析HTML(XML或DOM Tree)，獲取需要的資料；

在第一步中，常用的方法是使用urllib和urllib2(在Python3中這兩個包已經合為一個包)來實現對網頁資源的獲取。當然，官方文件其實更推薦使用第三方庫：requests。

urllib(2)模組是Python標準庫中用於處理URL的元件合集；
requests是在urllib之上的HTTP客戶端介面，某種意義上是一層高階的封裝。

在第二步中，要解析扒下來的HTML檔案（及其他），常用的是正則表示式(regex)和BeautifulSoup兩種（lxml暫不做考慮，因為BS實際上可以用lxml來做解析引擎）。

正則表示式(regex)的學習難度視情況而定，如果之前有其他語言的正則表示式基礎，對於Python中的正則表示式也能很快上手。
BeautifulSoup上手更快，語言也更加偏自然化，但是有些編寫不那麼嚴謹的網頁用BS可能很難解析出來，這時候就需要搭配正則表示式來做提取。

但這些方法某種意義上還是不那麼方便，於是便有了Scrapy這種高階抽象的爬蟲框架。（它不僅僅可以用來抓Web資料）

從學習難度和操作難度上，從urllib+regex、requests+BeautifulSoup到Scrapy，抽象程度依次加大，方便程度越來越好，但對底層的掌握能更好幫你理解一些實際操作時的Eoor和解析失敗的原因。第一個爬蟲，我們使用urllib+正則表示式的基礎方法來實現。

>第一個爬蟲

我們試著抓取百度首頁的HTML內容：

url = 'http://www.baidu.com/'
response = urllib2.urlopen(url)  # import urllib2
result = response.read()
print result

這時候就能在控制檯輸出了整個頁面的HTML內容了（含JS和CSS）。

但這似乎沒什麼意思，我們直接利用urllib+regex進行一次實戰吧——我們的目標是抓取B站首頁的TOP推廣視訊：

首先，第一步，我們先偽造一次request：

def req(url):
    response = urllib2.urlopen(url)  # import urllib2
    return response

接著，第二步，我們準備開始解析獲得的資料，並從整個HTML中利用regex提取出所需要的資料。利用審查元素功能，我們可以得到以下內容：

因此，我們可以很容易得到每個card的DOM Tree結構：

<div class="groom-module home-card">
    <p class="title">
    <p class="author">
    <p class="play">

於是解碼方法就可以寫出來了：

def decode(response):
    card_root_div = r'<div class="groom-module home-card">(.*?)</div>'
    card_title_p = r'<p class="title">(.*?)</p>'
    card_author_p = r'<p class="author">(.*?)</p>'
    card_play_p = r'<p class="play">(.*?)</p>'
    all_card_root = re.findall(card_root_div, response, re.S|re.M)  # import re
    for c in all_card_root:
        title = re.search(card_title_p, c, re.S|re.M).group(1)
        author = re.search(card_author_p, c, re.S|re.M).group(1)
        play = re.search(card_play_p, c, re.S|re.M).group(1)
        print title, author, play

執行我們的爬蟲指令碼：

bilibili_url = 'https://www.bilibili.com/'
decode(req(bilibili_url).read())

輸出如下（視訊標題+視訊作者+視訊播放量）：

* 關於正則表示式，需要>另外去學習<，這裡只對如何“分析網頁”並配以“正則表示式提取”做出瞭解釋和演示。

第一個完整的簡單爬蟲指令碼就這樣寫完了。

[Python][爬蟲01]從零環境搭建到第一個例項

[Python][爬蟲01]從零環境搭建到第一個例項

python自己動手從零開始搭建FTP伺服器2 FTP初步框架

Python爬蟲+ pyqt5(從零開始到爬取教務處新聞，課程表，成績)

Python爬蟲入門——2. 1 我的第一個爬蟲程式

第一章 python分散式爬蟲打造搜尋引擎環境搭建第一節 CentOS7環境下pycharm的安裝和使用

第二章 python分散式爬蟲打造搜尋引擎環境搭建第一節建立第一個scrapy專案

第二章 python分散式爬蟲打造搜尋引擎環境搭建第一節爬蟲基礎知識介紹

Mac 計算機的日常使用和從零開始搭建Python開發環境

Ubuntu 從零開始搭建Python開發環境

從零開始搭建Java開發環境第一篇：Java工程師必備軟體大合集

從零開始系列之vue全家桶（4）帶新手小白一起搭建第一個個人網站項目

從零開始搭建微信硬件開發環境全過程——1小時掌握微信硬件開發流程

Windows環境下，從零開始搭建Nodejs+Express+Ejs框架（一）---安裝nodejs

Windows環境下，從零開始搭建Nodejs+Express+Ejs框架（二）---安裝Express，ejs

從零開始搭建自己的VueJS2.0+ElementUI單頁面網站（一、環境搭建）

webpack4從零配置搭建簡單的React16開發環境

從零開始搭建linux下laravel 5.6環境（一）

從零開始搭建linux下laravel 5.5所需環境（三）

新公司入職,從零開始搭建環境

linux環境，從零開始搭建nginx+uwsgi+django環境（二)

[Python][爬蟲01]從零環境搭建到第一個例項

相關推薦