Python新手寫出漂亮的爬蟲程式碼

阿新 • • 發佈：2019-01-11

BeautifulSoup神器

Python一個第三方庫bs4中有一個BeautifulSoup庫，是用於解析html程式碼的，換句話說就是可以幫助你更方便的通過標籤定位你需要的資訊。這裡只介紹兩個比較關鍵的方法：

1、find方法和findAll方法：
首先，BeautifulSoup會先將整個html或者你所指定的html程式碼程式設計一個BeautifulSoup物件的例項（不懂物件和例項不要緊，你只要把它當作是一套你使用F12看到的樹形html程式碼程式碼就好），這個例項可以使用很多方法，最常用的就是find和findAll，二者的功能是相同的，通過find( )的引數，即find( )括號中指定的標籤名，屬性名，屬性值去搜索對應的標籤，並獲取它，不過find只獲取搜尋到的第一個標籤，而findAll將會獲取搜尋到的所有符合條件的標籤，放入一個迭代器（實際上是將所有符合條件的標籤放入一個list），findAll常用於兄弟標籤的定位，如剛才定位口碑資訊，口碑都在dl標籤下，而同一頁的10條口碑對應於10個dl標籤，這時候用find方法只能獲取第一個，而findAll會獲取全部的10個標籤，存入一個列表，想要獲取每個標籤的內容，只需對這個列表使用一個for迴圈遍歷一遍即可。

2、get_text()方法：
使用find獲取的內容不僅僅是我們需要的內容，而且包括標籤名、屬性名、屬性值等，比如使用find方法獲取"<Y yy='aaa'>xxxx</Y>" 的內容xxxx，使用find後，我們會得到整個"<Y yy='aaa'>xxxx</Y>"，十分冗長，實際我們想要的僅僅是這個標籤的內容xxxx，因此，對使用find方法後的物件再使用get_text( )方法，就可以得到標籤的內容了，對應到這裡，我們通過get_text( )方法就可以得到xxxx了。

好了，鋪墊做的差不多了，上程式碼咯~~~

案例：愛卡汽車

使用Python3，需要提前安裝bs4庫，博主的環境是win7+Python3+Pycharm（有時候也用Ubuntu16.04+Python3+Pycharm），很多時候都有人問博主，什麼ide好用呢？jupyter notebook？spyder？Pycharm？這裡只能和大家說各個ide各有千秋，做工程（如爬蟲）使用pycharm肯定是首選，如果只是平時的練習，寫個小程式，使用jupyter notebook和spyder就不錯，總之，如果涉及到頻繁列印輸出結果的東西，最好還是用pycharm，不要用jupyter notebook，不然會很卡。

言歸正傳，上程式碼！

兩點說明：爬蟲程式碼中，html程式碼經常會出現’class’這個屬性名，而class是python中“類”的關鍵字，而爬蟲的find方法對於屬性名而言，是不需要加引號的，如果直接輸入class是會出現問題的，所以需要注意，每次輸入class時應當輸入為class_，即class後加一個下劃線；

第二就是下方程式碼一開始有一個add_header的過程，為的是將程式碼偽裝成瀏覽器。很多網站是反對爬蟲程式對其資訊進行爬取的，所以會禁止一些程式訪問他們的網站，通過add_header將你的爬蟲程式偽裝成了瀏覽器，故在網站看來，訪問它的就不是一個程式，而是一個瀏覽器，或者說是一個人類使用者了。

import urllib
import urllib.request
from bs4 import BeautifulSoup
import re
import random
import time

# 設定目標url，使用urllib.request.Request建立請求
url0 = "http://newcar.xcar.com.cn/257/review/0.htm"
req0 = urllib.request.Request(url0)

# 使用add_header設定請求頭，將程式碼偽裝成瀏覽器
req0.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36")

# 使用urllib.request.urlopen開啟頁面，使用read方法儲存html程式碼
html0 = urllib.request.urlopen(req0).read()

# 使用BeautifulSoup建立html程式碼的BeautifulSoup例項，存為soup0
soup0 = BeautifulSoup(html0)

# 獲取尾頁（對照前一小節獲取尾頁的內容看你就明白了）
total_page = int(soup0.find("div",class_= "pagers").findAll("a")[-2].get_text())
myfile = open("aika_qc_gn_1_1_1.txt","a")
print("user","來源","認為有用人數","型別","評論時間","comment",sep="|",file=myfile)
for i in list(range(1,total_page+1)):
    # 設定隨機暫停時間
    stop = random.uniform(1, 3)
    url = "http://newcar.xcar.com.cn/257/review/0/0_" + str(i) + ".htm"
    req = urllib.request.Request(url)
    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36")
    html = urllib.request.urlopen(req).read()
    soup = BeautifulSoup(html)
    contents = soup.find('div', class_="review_comments").findAll("dl")
    l = len(contents)
    for content in contents:
        tiaoshu = contents.index(content)
        try:
            ss = "正在爬取第%d頁的第%d的評論，網址為%s" % (i, tiaoshu + 1, url)
            print(ss)
            try:
                comment_jiaodu = content.find("dt").find("em").find("a").get_text().strip().replace("\n","").replace("\t","").replace("\r","")
            except:
                comment_jiaodu = ""
            try:
                comment_type0 = content.find("dt").get_text().strip().replace("\n","").replace("\t","").replace("\r","")
                comment_type1 = comment_type0.split("【")[1]
                comment_type = comment_type1.split("】")[0]
            except:
                comment_type = "好評"
            # 認為該條評價有用的人數
            try:
                useful = int(content.find("dd").find("div",class_ = "useful").find("i").find("span").get_text().strip().replace("\n","").replace("\t","").replace("\r",""))
            except:
                useful = ""
            # 評論來源
            try:
                comment_region = content.find("dd").find("p").find("a").get_text().strip().replace("\n","").replace("\t","").replace("\r","")
            except:
                comment_region = ""
            # 評論者名稱
            try:
                user = content.find("dd").find("p").get_text().strip().replace("\n","").replace("\t","").replace("\r","").split("：")[-1]
            except:
                user = ""
            # 評論內容
            try:
                comment_url = content.find('dt').findAll('a')[-1]['href']
                urlc = comment_url
                reqc = urllib.request.Request(urlc)
                reqc.add_header("User-Agent",
                                "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36")
                htmlc = urllib.request.urlopen(reqc).read()
                soupc = BeautifulSoup(htmlc)
                comment0 = \
                soupc.find('div', id='mainNew').find('div', class_='maintable').findAll('form')[1].find('table',class_='t_msg').findAll('tr')[1]
                try:
                    comment = comment0.find('font').get_text().strip().replace("\n", "").replace("\t", "")
                except:
                    comment = ""
                try:
                    comment_time = soupc.find('div', id='mainNew').find('div', class_='maintable').findAll('form')[1].find('table', class_='t_msg').\
                    find('div', style='padding-top: 4px;float:left').get_text().strip().replace("\n","").replace( "\t", "")[4:]
                except:
                    comment_time = ""
            except:
                try:
                    comment = content.find("dd").get_text().split("\n")[-1].split('\r')[-1].strip().replace("\n", "").replace("\t","").replace("\r", "").split("：")[-1]
                except:
                    comment = ""
            # time.sleep(stop)
            print(user,comment_region,useful,comment_type,comment_time,comment, sep="|", file=myfile)
        except:
            s = "爬取第%d頁的第%d的評論失敗，網址為%s" % (i, tiaoshu + 1, url)
            print(s)
            pass
myfile.close()

補充說明一下：try——except這個結構（看起來有點像if——else的結構）是一個非常重要的過程，為了使爬蟲程式碼可以良好的執行，不至於剛開始爬幾分鐘就報錯這種噁心人的情況，需要很好的利用try——except過程。程式會先執行try下的語句，如果發生失敗，就會執行except下的語句，你也可以使用多個try——except巢狀的結構完成複雜的情況的覆蓋，最好要保證你的try——except過程包含了程式會遇到的所有情況，那麼你的程式碼就是趨於完美的。

講到這裡，第一節爬蟲課程也就到這裡了，不久之後會介紹動態爬蟲，如果之後還有時間，還會介紹一下selenium這個模擬瀏覽的庫，以及爬蟲框架還有反爬蟲的知識，給自己打個廣告，除了爬蟲可，近期也會分享一些關於word2vec和fastText文字分類演算法的內容，讀者有什麼其他想交流的可以留言~我也是個正在學習路上的仔，希望能和各路朋友以及大牛交流。

Python新手寫出漂亮的爬蟲程式碼

案例：愛卡汽車

Python新手寫出漂亮的爬蟲程式碼

乾貨 | 使用Python輕鬆寫出漂亮的命令列程式

驚！女朋友用Python寫出幾行程式碼就監控了我的電腦，吃雞被發現了

怎樣寫出漂亮整潔的程式碼？聊聊 Clean Code 的編碼、重構技巧

寫出漂亮程式碼的7種方法

程式設計師如何寫出優雅的程式碼？

5分鐘學會Markdown語法，在GitHub上寫出漂亮文字，提升別人閱讀體驗

《程式設計珠璣》程式碼之路12：如何用C/C++實現array[-1]並利用它寫出優美的程式碼

力薦！這些工具可以幫你寫出乾淨的程式碼

寫出優質Java程式碼的4個技巧

程式設計師如何才能寫出優秀的程式碼

【程式碼積累】寫一手漂亮的程式碼（1）

Python新手寫程式沒有思路怎麼辦

Python丨給你的爬蟲程式碼裡面新增一些小功能，讓你的程式碼與眾不同

C/C++之寫出高質量程式碼

利用VBA在Word中排出漂亮的程式碼

java程式設計-如何寫出優雅的程式碼

java也能寫出漂亮的介面（Java開源Swing外觀）

如何寫出好的程式碼？

只用這 6 個字元，就可以寫出任意 JavaScript 程式碼！

Python新手寫出漂亮的爬蟲程式碼

案例：愛卡汽車

相關推薦