python多執行緒抓取網頁內容並寫入MYSQL

阿新 • • 發佈：2019-01-10

自己的第一個多執行緒練習，中間踩了不少坑，程式寫的很渣，但是勉強能實現功能需求了，實際上抓取網頁是多執行緒在MYSQL寫入的時候是加了執行緒鎖的，實際上感覺就不是在多執行緒寫入了，不過作為第一個練習程式就這樣吧，後續部落格還會繼續更新優化版本。## html這個欄位沒啟用本來想把header資訊全部儲存寫入進去的但是考慮到太大了，還是算了 ##

建立SQL的語句：

CREATE TABLE `scan` (
  `id` int(8) NOT NULL AUTO_INCREMENT,
  `url` varchar(68) DEFAULT NULL,
  `title` varchar 
(300) DEFAULT NULL,
  `htmlcontent` varchar(10) DEFAULT NULL,
  `webtype` varchar(100) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `idselect` (`id`) USING BTREE
) ENGINE=MyISAM AUTO_INCREMENT=352 DEFAULT CHARSET=utf8;

python程式碼：

import time
import threading
import requests
import IPy
import re
import chardet
import 
 MySQLdb

visitTimesPerPage = 20
conn= MySQLdb.connect(
        host='localhost',
        port = 3306,
        user='root',
        passwd='root',
        db ='ceshi',
        charset="utf8",
        )

header={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36' 

}
repace_title=re.compile(r'\<title\>(.*?)\<\/title\>')
cur = conn.cursor()
threadLock = threading.Lock()
class scanhtml(threading.Thread):
    def __init__(self, threadName, host):
        threading.Thread.__init__(self, name = threadName)
        self.host = host

    global iplistall
    def run(self):
        url = "http://"+str(self.host)+":80/"
        try:
            doc = requests.get(url,headers=header,timeout=3)

            webtype = doc.headers['Server']

            charset=chardet.detect(doc.content)['encoding']
            #print charset
            decode_content = doc.content.decode(charset)
            titlelist=repace_title.findall(decode_content)
            print url
            #cur = conn.cursor()
            sql="insert into scan(id,url,title,htmlcontent,webtype) values(id,'%s','%s','%s','%s')" % (url,titlelist[0],6,webtype)
            #sqllist.append(sql)
            threadLock.acquire()
            try:
                cur.execute(sql)
                conn.commit()
            except:
                conn.rollback()
            threadLock.release()
        except Exception:
            pass

if __name__ =="__main__":
    '''iplistall=[]
    ipopen=open('123.txt','r')
    iplist=ipopen.readlines()
    for ip1 in iplist:
        #print ip1
        ip2=IPy.IP(ip1)
        for ip3 in ip2:
            iplistall.append(ip3)
    ipopen.close()
    threads = []
    for ip in iplistall:
        threadpage=scanhtml(str(time.time()),ip)
        threads.append(threadpage)

    for t in threads:
        t.start()
        while True:
            if(len(threading.enumerate())<200):
                break

    for t1 in threads:
        t1.join()


    conn.close()'''


    with open('123.txt','r') as f:
        for ip1 in f:
            iplistall=[]
            ip2=IPy.IP(ip1)
            for ip3 in ip2:
                iplistall.append(ip3)
            threads = []
            for ip in iplistall:
                threadpage=scanhtml(str(time.time()),ip)
                threads.append(threadpage)

            for t in threads:
                t.start()
            while True:
                if(len(threading.enumerate())<200):
                    break

            for t1 in threads:
                t1.join()
    conn.close()

使用的123.txt的文字格式為：
112.124.0.0/16
112.123.1.0/24
支援C B段格式

python多執行緒抓取網頁內容並寫入MYSQL

自己的第一個多執行緒練習，中間踩了不少坑，程式寫的很渣，但是勉強能實現功能需求了，實際上抓取網頁是多執行緒在MYSQL寫入的時候是加了執行緒鎖的，實際上感覺就不是在多執行緒寫入了，不過作為第一個練習程式就這樣吧，後續部落格還會繼續更新優化版本。## htm

python多執行緒爬取網頁

#-*- encoding:utf8 -*- ''' Created on 2018年12月25日 @author: Administrator ''' from multiprocessing.dummy import Pool as pl import csv import requests fr

goLang 多執行緒抓取網頁資料

突然有個想法想用goLang快速的抓取網頁資料,於是想到了多執行緒進行頁面抓取 package main import ( "fmt" "log" "net/http" "os" "st

python：多執行緒抓取西刺和快站高匿代理IP

　　一開始是打算去抓取一些資料，但是總是訪問次數多了之後被封IP，所以做了一個專門做了個工具用來抓取在西刺和快站的高匿IP。　　執行環境的話是在python3.5下執行的，需要requests庫　　在製作的過程中也參考的以下網上其他人的做法，但是發現很大一部分都不是多執行緒去抓取有點浪費時間了，又或者

Python requests 多執行緒抓取出現HTTPConnectionPool Max retires exceeded異常

場景：在做爬蟲專案或者是在傳送網路請求的時候，一般都會用到request模組，但是經常會遇到： HTTPConnectionPool Max retires exceeded read t

Jsoup簡單例子2.0——多執行緒爬取網頁內的郵箱

上一篇文章講了利用Jsoup爬取貼吧帖子裡的郵箱，雖然爬取成功了，但我對效率有所追求。10頁的帖子爬取了兩百多個郵箱，最快用時8秒，一般需要9秒。在思考了一下怎麼提升效率後，決定採用多執行緒的方式爬取網頁內的郵箱。廢話不多說，直接上程式碼。引入Jsoup的jar包此處省略，沒有的可以檢視上篇文

用JAVA實現簡單爬蟲多執行緒抓取

在迴圈爬取得基礎上進行多執行緒爬蟲，本程式中使用的三個執行緒，執行緒為實現runnable介面，並使用物件鎖防止併發共同去訪問同一個物件。讓三個執行緒同時爬去同一個url並且得到的新的url不重複。 import java.io.*; import j

網路爬蟲：使用多執行緒爬取網頁連結

前言：經過前面兩篇文章，你想大家應該已經知道網路爬蟲是怎麼一回事了。這篇文章會在之前做過的事情上做一些改進，以及說明之前的做法的不足之處。思路分析： 1.邏輯結構圖上圖中展示的就是我們網路爬蟲中的整個邏輯思路（呼叫Python解析URL，這裡只作了簡略

資料探勘_多執行緒抓取

在這一篇文章中，我們主要來介紹多執行緒抓取資料。多執行緒是以併發的方式執行的，在這裡要注意，Python的多執行緒程式只能執行在一個單核上以併發的方式執行，即便是多核的機器，所以說，使用多執行緒抓取可以極大地提高抓取效率下面我們以requests為例介紹多執行緒抓取，然後在

簡單的python3 urllib3 多執行緒抓取圖片

#!/usr/bin/env python3 # -*- coding: utf-8 -*- # @author: liukelin [email protected] # 多執行緒抓取圖片 # import urllib3 import string i

使用python的requests、xpath和多執行緒爬取糗事百科的段子

程式碼主要使用的python中的requests模組、xpath功能和threading多執行緒爬取了糗事百科中段子的內容、圖片和閱讀數、段子作者的性別，年齡和頭像。 # author: aspiring import requests from lxml import

python 爬蟲如何用selenium抓取網頁內容

使用selenium爬取動態網頁資訊 Python selenium自動控制瀏覽器對網頁的資料進行抓取，其中包含按鈕點選、跳轉頁面、搜尋框的輸入、頁面的價值資料儲存、mongodb自動id標識等等等。首先介紹一下 Python selenium —自動化測試工

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的內容。

Python爬蟲教程：圖蟲網多執行緒爬取

我們這次也玩點以前沒寫過的，使用python中的queue，也就是佇列下面是我從別人那順來的一些解釋，基本爬蟲初期也就用到這麼多 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 1. 初始化： classQueue.Queue(maxsize)FIFO

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

Python爬蟲入門教程 14-100 All IT eBooks多執行緒爬取

寫在前面對一個爬蟲愛好者來說，或多或少都有這麼一點點的收集癖 ~ 發現好的圖片，發現好的書籍，發現各種能存放在電腦上的東西，都喜歡把它批量的爬取下來。然後放著，是的，就這麼放著.......然後慢慢的遺忘掉..... 爬蟲分析開啟網址 http://www.allitebooks.c

python多執行緒並行爬取

#-*-coding:utf8-*- from multiprocessing.dummy import Pool as ThreadPool import requests import time def getsource(url): html = reque

Python爬蟲教程：多執行緒爬取電子書

程式碼非常簡單，有咱們前面的教程做鋪墊，很少的程式碼就可以實現完整的功能了，最後把採集到的內容寫到 csv 檔案裡面，( csv 是啥，你百度一下就知道了) 這段程式碼是 IO密集操作我們採用 aiohttp 模

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取！

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問 scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的

python多執行緒抓取網頁內容並寫入MYSQL

相關推薦