Python爬了一半的數據出BUG了，等等！這一半數據還能用

阿新 • • 發佈：2018-12-30

caption 分享怎麽辦斷點續傳怎麽 response content .get upsert

相信你一定有過這樣的經歷：大晚上好不容易寫好一個爬蟲，添加了種種可能出現的異常處理，測試了很多遍都沒有問題，點擊了 RUN 開始正式運行。

第二天早上一睜眼就滿心歡喜地沖到電腦前，結果發現爬蟲半夜斷了，你氣得想要砸電腦，然後你看了一下 MongoDB 中爬了一半的數據，在想是刪掉重新爬，還是保留下來接著爬。

到這兒問題就來了，刪掉太可惜，接著爬很可能會爬到重復數據，雖然後期可以去重，但你有強迫癥，就是不想爬到重復數據，怎麽辦呢？

這就遇到了「爬蟲斷點續傳」問題，關於這個問題的解決方法有很多種，不過本文主要介紹數據存儲到 MongoDB 時如何做到只插入新數據，而重復數據自動過濾不插入。

先來個簡單例子，比如現在有兩個 list ，data2 中的第一條數據和 data 列表中的第一條數據是重復的，我們想將這兩個 list 依次插入 MnogoDB 中去，通常我們會使用 insert_one() 或者 insert_many() 方法插入，這裏我們使用 insert_one() 插入，看一下效果。

 1data = [
 2{‘index‘:‘A‘,‘name‘:‘James‘,‘rank‘:‘1‘ },
 3{‘index‘:‘B‘,‘name‘:‘Wade‘,‘rank‘:‘2‘ },
 4{‘index‘:‘C‘,‘name‘:‘Paul‘,‘rank‘:‘3‘ },
 5]
 6
 7data2 = [
 8{‘index‘:‘A‘,‘name‘:‘James‘,‘rank‘:‘1‘ },
 9{‘index‘:‘D‘,‘name‘:‘Anthony‘,‘rank‘:‘4‘ },
10]
11
12import pymongo
13client = pymongo.MongoClient(‘localhost‘,27017)
14db = client.Douban
15mongo_collection = db.douban
16
17for i in data:
18 mongo_collection.insert_one(i)

插入第一個 list ：

插入第二個 list ：

你會發現，重復的數據 A 被插入進去了，那麽怎麽只插入 D，而不插入 A 呢，這裏就要用到 update_one() 方法了，改寫一下插入方法：

1for i in data2:
2 mongo_collection.update_one(i,{‘$set‘:i},upsert=True)

這裏用到了 $set 運算符，該運算符作用是將字段的值替換為指定的值，upsert 為 True 表示插入。這裏也可以用 update() 方法，但是這個方法比較老了，不建議使用。另外嘗試使用 update_many() 方法發現不能更新多個相同的值。

1for i in data2:
2 mongo_collection.update(i, i, upsert=True)

下面舉一個豆瓣電影 TOP250 的實例，假設我們先獲取 10 個電影的信息，然後再獲取前 20 個電影，分別用 insert_one() 和 update_one() 方法對比一下結果。

insert_one() 方法會重復爬取前 10 個電影，最終生成 30 個數據：

update_one() 方法則只會插入新的 10 個電影,最終生成 20 個數據：

這就很好了對吧，所以當我們去爬那些需要分頁的網站，最好在爬取之前使用 update_one() 方法，這樣就算爬蟲中斷了，也不用擔心會爬取重復數據。

代碼實現如下：

1import requests

2import json

3import csv

4import pandas as pd

5from urllib.parse import urlencode

6import pymongo

8client = pymongo.MongoClient(‘localhost‘, 27017)

9db = client.Douban

10mongo_collection = db.douban

11class Douban(object):

12 def __init__(self):

13 self.url = ‘https://api.douban.com/v2/movie/top250?‘

15 def get_content(self, start_page):

16 params = {

17 ‘start‘: start_page,

18 ‘count‘: 10

19 }

20 response = requests.get(self.url, params=params).json()

21 movies = response[‘subjects‘]

22 data = [{

23 ‘rating‘: item[‘rating‘][‘average‘],

24 ‘genres‘:item[‘genres‘],

25 ‘name‘:item[‘title‘],

26 ‘actor‘:self.get_actor(item[‘casts‘]),

27 ‘original_title‘:item[‘original_title‘],

28 ‘year‘:item[‘year‘],

29 } for item in movies]

31 self.write_to_mongodb(data)

33 def get_actor(self, actors):

34 actor = [i[‘name‘] for i in actors]

35 return actor

37 def write_to_mongodb(self, data):

38 for item in data:

39 if mongo_collection.update_one(item, {‘$set‘: item}, upsert=True):

40 # if mongo_collection.insert_one(item):

41 print(‘存儲成功‘)

42 else:

43 print(‘存儲失敗‘)

45 def get_douban(self, total_movie):

46 # 每頁10條，start_page循環1次

47 for start_page in range(0, total_movie, 10):

48 self.get_content(start_page)

50if __name__ == ‘__main__‘:

51 douban = Douban()

52 douban.get_douban(10)

文章就到這裏啦~

寫在最後

Python爬了一半的數據出BUG了，等等！這一半數據還能用

caption 分享怎麽辦斷點續傳怎麽 response content .get upsert 相信你一定有過這樣的經歷：大晚上好不容易寫好一個爬蟲，添加了種種可能出現的異常處理，測試了很多遍都沒有問題，點擊了 RUN 開始正式運行。第二天早上一睜眼就滿心歡喜地

Python爬了一半的數據出BUG了，等等！這一半數據還能用

寫在最後

Python爬了一半的數據出BUG了，等等！這一半數據還能用

Python爬了一半的資料出BUG了，等等！這一半資料還能用

利用python3爬取淘寶評論出問題了，求高手幫忙分析下，急！！！！

python的自省函式, 快速找出BUG的良器

“一演示就出BUG”——[Errno 10053]引發的深思

線上出bug了？別怕，這麼定位！

完整備份數據庫+差異備份，恢復到另外一臺服務器

利用Python+ADB打造一款自動點贊和抽獎機制！這款項目值多少錢？

Python爬取數萬條北京租房資料，從6個維度揭穿房租瘋漲的祕密！！！

想了解自動駕駛系統，看完這一篇就夠了......

Java 中的單例模式，看完這一篇就夠了

一夜可以出一個暴發戶，而培養一個紳士卻需要三代人的時間

百行程式碼，python爬取小姐姐網100G套圖，別流鼻血，身體重要！

知乎問題"房間裡100個人，每人1000元，他們玩一個遊戲，每輪遊戲中，每個人拿出1元，隨機給另一個人，最後他們的財富分佈是怎樣的"實踐解答

小區地下室住了一群不明身份的人，討厭的蟑螂一族！

自己遇到的bug彙總，持續更新（一）

什麽是服務端渲染、客戶端渲染、SPA、預渲染，看完這一篇就夠了

Sql Or NoSql，看完這一篇你就懂了

第十講：Python爬取網頁圖片並儲存到本地，包含次層頁面

弄明白CMS和G1，就靠這一篇了

Python爬了一半的數據出BUG了，等等！這一半數據還能用

寫在最後

相關推薦