多線程版爬取故事網

阿新 • • 發佈：2017-09-03

實現 exe don comm value obj nco result nic

前言：
為了能以更高效的速度爬取，嘗試采用了多線程
本博客參照代碼及PROJECT來源：http://kexue.fm/archives/4385/

源代碼：

 1 #! -*- coding:utf-8 -*-
 2 import requests as rq
 3 import re
 4 import time
 5 import datetime
 6 import pymysql
 7 from multiprocessing.dummy import Pool,Queue #dummy子庫是多線程庫
 8 import html
 9 from urllib.request import 
 urlopen
10 from bs4 import BeautifulSoup
11 unescape = html.unescape #用來實現對HTML字符的轉移
12 
13 tasks = Queue() #鏈接隊列
14 tasks_pass = set() #已隊列過的鏈接
15 results = {} #結果變量
16 count = 0 #爬取頁面總數
17 tasks.put(‘/index.html‘) #把主頁加入到鏈接隊列
18 tasks_pass.add(‘/index.html‘) #把主頁加入到已隊列鏈接
19 
20 def main(tasks):
21     global 
 results,count,tasks_pass #多線程可以很輕松地共享變量
22     while True:
23         url = tasks.get() #取出一個鏈接
24         url = ‘http://wap.xigushi.com‘+url
25         html = urlopen(url)
26         bsObj = BeautifulSoup(html.read(), "lxml")
27         if (bsObj.meta.attrs[‘charset‘]==‘gb2312‘):
28             web = rq.get(url).content.decode(‘ 
gbk‘)  # 這裏的編碼要看實際情形而定
29         else:
30             web = rq.get(url).content.decode(‘utf8‘)  # 這裏的編碼要看實際情形而定
31 
32         urls = re.findall(‘href="(/.*?)"‘, web) #查找所有站內鏈接
33         for u in urls:
34             if (u not in tasks_pass): #把還沒有隊列過的鏈接加入隊列
35                 if ((re.search(‘images‘, url)) is None):
36                     tasks.put(u)
37                     tasks_pass.add(u)
38                 else:
39                     print(u, ‘---------------------------skipping--------------------------------------------‘)
40             else:
41                 pass
42 
43         text = bsObj.title.get_text()
44         print(datetime.datetime.now(), ‘   ‘, url, ‘   ‘, text)
45         db = pymysql.connect("localhost", "testuser", "test123", "TESTDB", charset=‘gbk‘)
46         dbc = db.cursor()
47         sql = "insert ignore into data1(url,title) values(%s,%s);"
48         data = (url, text)
49         dbc.execute(sql, data)
50         dbc.close()
51         db.commit()
52         db.close()
53         count += 1
54         if count % 100 == 0:
55             print(u‘%s done.‘%count)
56 
57 pool = Pool(10, main, (tasks,)) #多線程爬取，4是線程數
58 total = 0
59 while True: #這部分代碼的意思是如果20秒內沒有動靜，那就結束腳本
60     time.sleep(60)
61     if len(tasks_pass) > total:
62         total = len(tasks_pass)
63     else:
64         break
65 
66 pool.terminate()
67 print("terminated normally")

BUG:

數據庫並發寫入：
解答來源：https://stackoverflow.com/questions/6650940/interfaceerror-0
通過將遊標的創建移入線程，並在線程內關閉，跑出來的結果比之前好一些，但奇怪的是多幾行還是會出現並發報錯，奇怪，還能錯一半的？猜測將連接也放入線程會好些，或者幹脆不用commit提交？結果是不用commit都沒有寫入數據庫...我以為開啟了自動提交呢...
已解決，將數據庫連接和遊標都放在線程內創建
神奇地跳過一些數據庫裏面沒有的鏈接：
原來是過濾問題...水平真是...
已解決，修改URL過濾方式
編碼問題真是頭都大了...
```
encoding error : input conversion failed due to input error, bytes 0xB1 0x80 0xB5 0xC4
```
為什麽改了那麽多次還有...顯然是gbk轉utf8問題，可是我判斷了啊，還是有些網頁就是比較亂...

又是編碼問題：

UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\u30fb‘ in position 86: illegal multibyte sequence

網絡錯誤：

urllib.error.HTTPError: HTTP Error 503: Forwarding failure

多線程版爬取故事網

實現 exe don comm value obj nco result nic 前言：為了能以更高效的速度爬取，嘗試采用了多線程本博客參照代碼及PROJECT來源：http://kexue.fm/archives/4385/ 源代碼： 1 #! -*- cod

python 多線程方法爬取微信公眾號文章

微信爬蟲多線程爬蟲本文在上一篇基礎上增加多線程處理（http://blog.51cto.com/superleedo/2124494 ）執行思路：1，規劃好執行流程，建立兩個執行線程，一個控制線程2，線程1用於獲取url，並寫入urlqueue隊列3，線程2，通過線程1的url獲取文章內容，並保

多線程爬蟲爬取詳情頁HTML

切片 html rt thread set enc import req xpath 循環註意：如果想爬取詳情頁的信息請按須添加方法 import requests import os import re import threading from lxml

超級ping(多線程版)

class bsp append 公共wifi shel mon 線程 sub nco 發現學校公共wifi的ip段是10.1.0-255.0-255段的，還是之前的思路批量ping一波。其實可以使用nmap的。但是腳本寫都寫了。是吧。你懂的。 1 #!/

java使用jsoup，多執行緒批量爬取天極網某分類下的圖片

小Demo轉自csdn某作者，本例子只作為測試，頁面個數直接設定了100個，可以可能會少或者多，容易報錯，更優化的一種方式是獲取“下一頁”按鈕的地址，然後再訪問，當訪問不到“下一頁”的內容時跳出多執行緒只體現在檔案提取，也可以在elements迴圈中再加一個多執行緒

java使用jsoup，多執行緒批量爬取天極網某分類下的美女圖片

本例子只作為測試，頁面個數直接設定了100個，可以可能會少或者多，容易報錯，更優化的一種方式是獲取“下一頁”按鈕的地址，然後再訪問，當訪問不到“下一頁”的內容時跳出多執行緒只體現在檔案提取，也可以在elements迴圈中再加一個多執行緒訪問頁面的本案例需要jsoup包的

Python 爬蟲第三步 -- 多執行緒爬蟲爬取噹噹網書籍資訊

XPath 的安裝以及使用 1 . XPath 的介紹剛學過正則表示式，用的正順手，現在就把正則表示式替換掉，使用 XPath，有人表示這太坑爹了，早知道剛上來就學習 XPath 多省事啊。其實我個人認為學習一下正則表示式是大有益處的，之所以換成 XPa

使用requests、re、BeautifulSoup、線程池爬取攜程酒店信息並保存到Excel中

備案 info imp lis sub host write count star import requests import json import re import csv import threadpool import time, random

用Python多線程實現生產者消費者模式爬取鬥圖網的表情圖片

Python什麽是生產者消費者模式某些模塊負責生產數據，這些數據由其他模塊來負責處理（此處的模塊可能是：函數、線程、進程等）。產生數據的模塊稱為生產者，而處理數據的模塊稱為消費者。在生產者與消費者之間的緩沖區稱之為倉庫。生產者負責往倉庫運輸商品，而消費者負責從倉庫裏取出商品，這就構成了生產者消費者模式。生

Python爬蟲入門教程 10-100 圖蟲網多線程爬取

全局變量 app str tlist img exception 父類 json urn 寫在前面經歷了一頓劈裏啪啦的操作之後，終於我把博客寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模塊，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢

Python爬取貓眼top100排行榜數據【含多線程】

代碼 status log col return map result port htm # -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.e

多線程爬取百度百科

lib item put 腳本 mit sin find client rtl 前言：EVERNOTE裏的一篇筆記，我用了三個博客才學完...真的很菜...百度百科和故事網並沒有太過不一樣，修改下編碼，debug下，就可以爬下來了，不過應該是我爬的東西太初級了，而且我爬到

使用線程池多線程爬取鏈接，檢驗鏈接正確性

需求完成 cep gen -- 開始獲取url tool 可能我們網站大多數鏈接都是活鏈接都是運營配置的，而有的時候運營會將鏈接配置錯誤使訪問出錯，有時也會因為程序bug造成訪問出錯，因此對主站寫了個監控腳本，使用python爬取主站設置的鏈接並訪問，統計訪

使用selenium 多線程爬取愛奇藝電影信息

連接獲取 ict 容易出錯 span column 分享圖片 odi attribute 使用selenium 多線程爬取愛奇藝電影信息轉載請註明出處。爬取目標：每個電影的評分、名稱、時長、主演、和類型爬取思路：源文件：（有註釋） from seleniu

多線程+隊列爬取雙色球福利彩票歷史數據

sta chrome 雙色球 get page ror pad utf 爬取 #!/usr/bin/python -- coding:UTF-8 -- @Author : Anic.Mo @Time : 2018/6/18 12:51 @File : sc

多線程Beatiful Soup爬取鬥魚所有在線主播的信息

category con 讀取教程 stc https rom webkit date 　　最近看了個爬蟲的教程，想著自己也常在鬥魚看直播，不如就拿它來練練手。於是就寫了個爬取鬥魚所有在線主播的信息，分別為類別、主播ID、房間標題、人氣值、房間地址。　　需要用到的工具p

python多線程爬取網頁

brush request ext try ems with import append ide #-*- encoding:utf8 -*- ‘‘‘ Created on 2018年12月25日 @author: Administrator ‘‘‘ from mult

Python爬蟲入門教程 13-100 鬥圖啦表情包多線程爬取

.text 入門教程地址 ESS 文件頭部 https .html 一個 mat 寫在前面今天在CSDN博客，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裏面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多線程版本的。關鍵技術點 aiohttp ，你可以

爬蟲系列---多線程爬取實例

not 圖片文件夾 nco get origin nal ade close 1.爬取站長圖片源碼 #爬取站長‘http://sc.chinaz.com/tupian/gudianmeinvtupian.html‘,所有的古典美女圖片 import os imp

多線程爬取都挺好鏈接並保存到mongodb

ext all res name htm 技術 process utf host 一個比較簡單，python3多線程使用requests庫爬取都挺好，並使用正則提取下載鏈接，保存到mongodb #!/usr/bin/env python # -*- coding:utf

多線程版爬取故事網

相關推薦