1. 程式人生 > >關於python爬蟲去重問題

關於python爬蟲去重問題

我有一篇文章寫的關於爬豬八戒網的一些公司名,但是有重複,怎麼去重?

for result in results:
if result.text not in res:
res.append(result.text)
count+=1

可以新增一個list,把你爬下的內容放進去,然後用if判斷,看是否已經進行爬取,如果沒有就新增。

但是這麼爬下來有個問題就是他不是漢字,所以還要進行編碼轉換。

for r in res:
s=r.encode("gbk")
print s

這樣就可以轉換成漢字了,去重OK。