【python3爬蟲-爬文章】爬IT之家10萬篇文章

阿新 • • 發佈：2018-11-20

1. 技術要點：

多執行緒；
Python3 GET請求（請求評論數），POST請求（將抓取的資料存入資料庫）；
資料持久化（將抓取資料存入MySQL）。

2. 過程：

採用窮舉的辦法（為什麼用窮舉，因為文章url地址是數字結尾但是又沒有明顯規律），開600執行緒，一共抓90萬次，每次延時0.05秒，一共花費時間47小時。

BS4操作DOM，篩選html節點，從而獲取想要的文字文字；

GET請求，直接返回結果：

# GET
import requests
get_response = requests.get(url='   ')
res = get_response.text

返回評論數。

POST請求，請求後端api即可完成資料入庫：

        import requests
        post_url = 'http://192.168.13.103/laravel55/public/index.php/it_pages2'
        data = {
            "it_title": it_title,
            "it_url": it_url,
            "it_week": it_week,
            "it_number": it_number,
            "it_time": it_time,
            "it_source": it_source,
            "it_editor": it_editor,
            "it_comment": it_comment,
        }
        post = requests.post(url=post_url, data=data, headers={'Content-Type': 'application/x-www-form-urlencoded'})

將資料儲存到資料庫。

我後端用的是PHP框架laravel55，直接寫一個POST提交介面即可。研究了一下Django編寫有點麻煩，資料庫配置很麻煩，增刪改查資料很麻煩，建專案很麻煩，分散式很麻煩，總之有點麻煩。

3. 整個爬蟲Python3.x程式碼：

from bs4 import BeautifulSoup
import urllib.request
import requests
import os
import re
import time
import _thread


# 單篇文章
def a_page(week, number, weburl):

    it_url = weburl + str(week) + '/' + str(number) + '.htm'  # 文章地址
    print('\n文章地址：' + it_url)

    try:
        # 獲取網頁
        response = urllib.request.urlopen(it_url)
        html = response.read().decode('utf-8')  # 編碼格式gb2312,utf-8,GBK
        html_string = str(html)  # 轉換成string，可以直接向資料庫新增
        soup = BeautifulSoup(html_string, "html.parser")  # 解析網頁標籤

        title_div = soup.find_all('div', attrs={'class', 'post_title'})[0]

        it_title = title_div.find('h1').string  # 標題
        it_time = title_div.find_all(id='pubtime_baidu')[0].string  # 文章時間
        it_source = title_div.find_all(id='source_baidu')[0].find('a').string  # 文章來源
        it_editor = title_div.find_all(id='editor_baidu')[0].find('strong').string  # 編輯

        get_response = requests.get(url='https://dyn.ithome.com/api/comment/count?newsid=' + str(week) + str(number))
        it_comment = re.findall('(\d+)', get_response.text)[-1]  # 評論數

        it_week = week  # 第多少周
        it_number = number  # 文章在本週的編號

        print(it_title)
        print(it_url)
        print(it_week)
        print(it_number)
        print(it_time)
        print(it_source)
        print(it_editor)
        print(it_comment)

        print('本篇文章抓取完成，編號=' + str(number))

        # 文章資料儲存
        post_url = 'http://192.168.13.103/laravel55/public/index.php/it_pages2'
        data = {
            "it_title": it_title,
            "it_url": it_url,
            "it_week": it_week,
            "it_number": it_number,
            "it_time": it_time,
            "it_source": it_source,
            "it_editor": it_editor,
            "it_comment": it_comment,
        }
        post = requests.post(url=post_url, data=data, headers={'Content-Type': 'application/x-www-form-urlencoded'})
        print('資料儲存完成，res=' + post)

        pass
    except:
        print('不存在文章，編號=' + str(number) + '；周=' + str(week))
        pass

    time.sleep(0.05)  # 延時抓取完成要延時12.5小時，避免拖死wifi路由器，減少樣本失敗率。

    pass


def week_page(week, weburl):
    for number in range(1, 1500):  # 一週文章最大編號
        print('\n第' + str(number) + '篇文章')
        # a_page(week, number, weburl)
        pass
    pass


all_thread_num = 0


def page_class(cla, that_num):
    print("已啟動執行緒=" + str(that_num))
    global all_thread_num
    all_thread_num += 1
    print("執行緒總數=" + str(all_thread_num))
    for page in range(1, 30):
        print("內=" + str(page))
        pass
    pass


for cla in range(0, 600):  # 建立執行緒
    try:
        _thread.start_new_thread(week_page, (cla, 'https://www.ithome.com/0/'))
        pass
    except:
        print("無法啟動執行緒")
        pass
    pass

while 1:
    pass

MySQL下載：

地址1：https://download.csdn.net/download/weixin_41827162/10795556

地址2：https://makeoss.oss-cn-hangzhou.aliyuncs.com/it/it_pages2.sql

【python3爬蟲-爬文章】爬IT之家10萬篇文章

- 1. 技術要點：多執行緒； Python3 GET請求（請求評論數），POST請求（將抓取的資料存入資料庫）；資料持久化（將抓取資料存入MySQL）。 2. 過程：採用窮舉的辦法（為什麼用窮舉，因為文章url地址是數字結尾但是又沒有明顯規律），開6

【Python3 爬蟲學習筆記】基本庫的使用 10—— 正則表示式 3

3.search() mathch()方法是從字串的開頭開始匹配的，一旦開頭不匹配，那麼整個匹配就失敗了。因為match()方法在使用時需要考慮到開頭的內容，這在匹配時並不方便。它更適合用來檢測某個字串是否符合某個正則表示式的規則。 search()方法在匹配時會掃描整個字串，然後返回第

【Python3 爬蟲學習筆記】解析庫的使用 10 —— 使用pyquery 3

節點操作 pyquery提供了一系列方法來對節點進行動態修改，比如為某個節點新增一個class，移除某個節點等，這些操作有時候會為提取資訊帶來極大地便利。 addClass和removeClass html = ''' <div class="wrap"> <d

【Python3 爬蟲學習筆記】動態渲染頁面爬取 2

動作鏈在互動操作中，一些互動動作都是針對某個節點執行的。比如，對於輸入框，我們就呼叫它的輸入文字和清空文字方法；對於按鈕，就呼叫它的點選方法。其實，還有另外一些操作，它們沒有特定的執行物件，比如滑鼠拖曳、鍵盤按鍵等，這些動作用另一種方式來執行，那就是動作鏈。

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

【Python3 爬蟲學習筆記】動態渲染頁面爬取 3 —— Selenium的使用 3

切換Frame 網頁中有一種節點叫作iframe，也就是子Frame，相當於頁面的子頁面，它的結構和外部頁面的結構完全一致。Selenium開啟頁面後，它預設是在父級Frame裡面操作，而此時如果頁面中海油子Frame，它是不能獲取到子Frame裡面的額節點的。

【python爬蟲自學筆記】-----爬取網易雲歌單中歌曲歌詞

工具：python3.6 ，pycharm 開始對網頁的內容進行爬取的時候，使用requests獲得響應，只傳url，但是沒有獲得響應，使用urllib新增請求頭部，並對response的內容使用utf-8進行解碼，使用BeautifulSoup轉換為html物件，

【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存

CSV，全稱為Comma-Separated Values，中文可以叫作逗號分隔符或字元分隔值，其檔案以純文字形式儲存表格資料。該檔案時一個字元序列，可以由任意數目的記錄組成，記錄間以某種換行符分隔。每條記錄由欄位組成，欄位間的分隔符是其他字元或字串，最常見的是逗號或製表符。不過所有記錄都有

【Python3 爬蟲學習筆記】基本庫的使用 8—— 正則表示式 1

三、正則表示式 1.例項引入開啟開源中國提供的正則表示式測試工具 http://tool.oschina.net/regex/ ，輸入待匹配的文字，然後選擇常用的正則表示式，就可以得出相應的匹配結果。對於URL來說，可以用下面的正則表示式匹配： [a-zA-z]+://[^\

【Python3 爬蟲學習筆記】基本庫的使用 7 —— 使用requests

抓取二進位制資料前面我們抓取知乎的一個頁面，實際上它返回的是一個HTML文件。如何抓取圖片、音訊、視訊？圖片、音訊、視訊這些檔案本質上都是由二進位制碼組成的，由於有特定的儲存格式和對應的解析方式，我們才可以看到這些形形色色的多媒體，所以要抓取它們，就要拿到它們的二進位制碼。抓取

【Python3 爬蟲學習筆記】基本庫的使用 12—— 正則表示式 5

6. compile() compile()方法可以將正則字串編譯成正則表示式物件，以便在後面的匹配中複用。示例程式碼如下： import re content1 = '2016-12-15 12:00' content2 = '2016-12-17 12:55' content3

【Python3 爬蟲學習筆記】基本庫的使用 11—— 正則表示式 4

4. findall() search()方法可以返回匹配正則表示式的第一個內容，但是如果想要獲取匹配正則表示式的所有內容，就要藉助findall()方法了。該方法會搜尋整個字串，然後返回匹配正則表示式的所有內容。上一節中的HTML文字中，如果想要獲得所有a節點的超連結、歌手和歌名，就

【Python3 爬蟲學習筆記】基本庫的使用 9—— 正則表示式 2

1.1 匹配目標如果想從字串中提取出一部分內容，可以用()括號將想提取的子字串括起來。()實際上標記了一個子表示式的開始和結束位置，被標記的每個子表示式會一次對應一個分組，呼叫group()方法傳入分組的索引即可獲取提取的結果。示例如下： import re content =

【Python3 爬蟲學習筆記】解析庫的使用 3 —— Beautiful Soup 1

Beautiful Soup可以藉助網頁的結構和屬性等特性來解析網頁。有了Beautiful Soup，我們不用再去寫一些複雜的正則表示式，只需要簡單的幾條語句，就可以完成網頁中某個元素的提取。 Beautiful Soup是Python的一個HTML或XML的解析庫，可以用它來方便地從

【Python3 爬蟲學習筆記】解析庫的使用 2 —— 使用XPath 2

8. 文字獲取我們使用XPath中的text()方法獲取節點中文字，接下來嘗試獲取前面li節點中的文字，相關程式碼如下： from lxml import etree html = etree.parse('./test.html', etree.HTMLParser()) re

【Python3 爬蟲學習筆記】解析庫的使用 1 —— 使用XPath 1

XPath，全稱XML Path Language，即XML路徑語言，它是一門在XML文件中查詢資訊的於洋。它最初是用來搜尋XML文件的，但它同樣適用於HTML文件的搜尋。 1. XPath概覽 XPath的選擇功能十分強大，它提供了非常簡潔明瞭的路徑選擇表示式。另外，它還提供了超過

【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行

四、抓取貓眼電影排行 4.1 抓取分析需要抓取的目標站點為http://maoyan.com/board/4 ,開啟之後便可以檢視到榜單資訊，如下圖所示：排名第一的電影是霸王別姬，頁面中顯示的有效資訊有影片名稱、主演、上映時間、上映地區、評分、圖片等資訊。將網頁滾動到最下方，

【Python3 爬蟲學習筆記】解析庫的使用 7 —— Beautiful Soup 5

CSS選擇器 Beautiful Soup還提供了另外一個選擇器，那就是CSS選擇器。使用CSS選擇器時，只需要呼叫select()方法，傳入相應的CSS選擇器即可，示例如下： html = ''' <div class="panel"> <div class="

【Python3 爬蟲學習筆記】解析庫的使用 5 —— Beautiful Soup 3

提取資訊要獲取關聯元素節點的資訊，比如文字、屬性等，如下： html = """ <html> <body> <p class="story"> Once upon a time there were three little sisters

【Python3 爬蟲學習筆記】解析庫的使用 4 —— Beautiful Soup 2

父節點和祖先節點如果要獲取某個節點元素的父節點，可以呼叫parent屬性： html = """ <html> <head> <title>The Dormouse's story</title> </head> <

【python3爬蟲-爬文章】爬IT之家10萬篇文章

相關推薦