多執行緒+代理ip池爬蟲

阿新 • • 發佈：2018-12-15

# coding=utf-8

import tushare as ts
import pandas as pd
import requests
import json
import re
import time
from retrying import retry
from concurrent.futures import ThreadPoolExecutor
import random


def get_pro():
    list = ['122.114.31.177:808', '61.135.217.7:80', '113.121.243.109:808', '171.39.40.5:8123' 
, '121.31.199.30:8123',
            '111.155.116.240:8123', '125.121.121.171:808', '115.213.178.192:808']

    return list






start = time.clock()  # 計時-開始

urlnum = range(8)
listdo = urlnum


while True:
    listye = []
    listno = []
    event = []
    @retry(stop_max_attempt_number=8)  # 設定最大重試次數
 
    def crawl(n):

        pro_list = get_pro()

        header = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}

        proxies_l = {'http': pro_list[random.randint(0, len(pro_list))],

                     }
        print(proxies_l['http'])

        try:
            req = requests.get('http://httpbin.org/ip' 
, headers=header, proxies=proxies_l)
            print('finish')
            listye.append(n)
            listdo.remove(n)
            print listdo

            return  req.text

        except:
            print('no proxies')
            listno.append(n)

    # 多執行緒
    def multithreading():

        number = listdo

        with ThreadPoolExecutor(max_workers=10) as executor:
            for result in executor.map(crawl, number, chunksize=10):
                event.append(result)

        return event


    event = multithreading()
    print 'listye'
    print listye
    print 'listno'
    print listno
    print 'listdo'
    print listdo




    if len(listdo) == 0:
        break

end = time.clock()  # 計時-結束
print ("爬取完成 用時：")
print (end - start)

多執行緒+代理ip池爬蟲

# coding=utf-8 import tushare as ts import pandas as pd import requests import json import re import time from retrying import retry from concurren

Python使用多執行緒（附：爬蟲使用的執行緒池）

python開啟多執行緒。使用的庫： python 3.+ :threading(較高階，常用), _thread（python2.+中叫 thread）（偏底層） python 2.+ :th

關於在多執行緒情況下同步爬蟲爬取結果的一個例子

這些天一直在用java做爬蟲工作，之前遇到的都比較簡單，大多都是單介面的爬取，這次需要爬蟲100多個介面，肯定得多跑幾個執行緒然而這些介面由於資訊中有重複，leader要求我們必須去重，因為資料庫更改是有次數限制的。所以搞了幾天，才把這個程式寫出來。先寫一下思想：首先，利用JA

多執行緒TCP/IP通訊的服務端

/* add include files */#include "winsock2.h"#include "afxmt.h"#include "Mmsystem.h"#include <time.h>#include <sys/types.h>#in

Python+Selenium多執行緒基礎微博爬蟲

一、隨便扯扯的概述大家好，雖然我自上大學以來就一直在關注著CSDN，在這上面學到了很多知識，可是卻從來沒有發過部落格（還不是因為自己太菜，什麼都不會），這段時間正好在機房進行期末實訓，我們組做的是一個基於微博資訊的商品推薦系統，不說這個系統是不是真的可行可用，

jsoup+HttpURLConnection+多執行緒實現編寫網路爬蟲

jsoup HttpURLConnection 多執行緒網路爬蟲解析網頁內容開發平臺：Android Studio 3.1內容：利用jsoup解析爬取的頁面內容HttpURLConnection是Java的標準類，它繼承自URLConnection，可用於向指定網站

C++實現多執行緒物件記憶體池帶垃圾回收機制

#include <Windows.h> #include <iostream> #include <map> #include <string> #include <assert.h> #include <

多執行緒、程序池、協程

程序池 #!/usr/bin/env python # -*- coding:utf-8 -*- from lxml import etree #import threading # multiprocessing.dummy 是多程序類庫裡裡的一個多執行緒模組，有一

使用scrapy+IP代理+多執行緒爬蟲對拉鉤網在杭州網際網路職位資訊的抓取

#encoding=utf8 import urllib2 from bs4 import BeautifulSoup import socket import urllib import requests import random from LagouProject.dbhelper import Tes

python app多執行緒爬蟲以及代理ip的使用

用的是執行緒池 import requests import json from multiprocessing import Queue from handle_mongo import mongo_info from concurrent.futures import

教你用 Python 多執行緒爬京東商城商品評論（代理ip請閱讀上一篇）

爬蟲永不停息最近改進上一篇的爬蟲，不爬豆瓣了，改爬一爬京東評論，先放幾張圖研究看看先。研究了一下，發現商品的id就是連結.html前面的數字。我們把它複製貼上下拉 1,對上一篇的代表進行修改和新增 class Spider(): def

python：多執行緒抓取西刺和快站高匿代理IP

　　一開始是打算去抓取一些資料，但是總是訪問次數多了之後被封IP，所以做了一個專門做了個工具用來抓取在西刺和快站的高匿IP。　　執行環境的話是在python3.5下執行的，需要requests庫　　在製作的過程中也參考的以下網上其他人的做法，但是發現很大一部分都不是多執行緒去抓取有點浪費時間了，又或者

Python爬蟲：一些常用的爬蟲技巧總結(IP,cookie,header,多執行緒)

http://python.jobbole.com/84622/ 用python也差不多一年多了，python應用最多的場景還是web快速開發、爬蟲、自動化運維：寫過簡單網站、寫過自動發帖指令碼、寫過收發郵件指令碼、寫過簡單驗證碼識別指令碼。爬蟲在開發過程中也有很

Python3 requests爬取代理IP並驗證可用性（附多執行緒模式）

簡要介紹：使用python3 環境，需要自己安裝的包有requests （網址請求，獲取頁面資訊）和 Lxml（頁面解析，資訊提取）。首先確定從何處獲取 “IP”，本人此次爬取的是西刺網的免費IP代理。大概流程：請求有免費IP的網址（本次使用“htt

建立爬蟲代理IP池

web odin pro __main__ headers XML Coding txt文件端口號 #!/usr/bin/python3.5 # -*- coding:utf-8 -*- import time import tempfile from l

如何搭建穩定的代理ip池, 供爬蟲使用

什麽 git 免費文章存在服務器根據代理服務器如何新型的代理ip池aox_proxy_pool 在這篇文章之前, 應該不少人都看過很多搭建代理ip池的文章, 然後發現都是坑, 無法使用。說的比較多的推薦買xx家的代理ip, 賊穩定, 好使(廣告) 抓取x

Python爬蟲之多執行緒，多程序

前言我們之前寫的爬蟲都是單個執行緒的？這怎麼夠？一旦一個地方卡到不動了，那不就永遠等待下去了？為此我們可以使用多執行緒或者多程序來處理。首先宣告一點！多執行緒和多程序是不一樣的！一個是 thread 庫，一個是 multiprocessing 庫。而多執行緒 thread 在 Pytho

執行緒池中多執行緒設定超時退出監控

前言在寫多執行緒程式時，大多數情況下會先excutor建立執行緒池，然後再建立執行緒，但是對一些讀資料庫或者其他IO操作，容易堵住執行緒，此時就需要給執行緒設定超時時間，幹掉超時的執行緒再重新拉起一個執行緒來，但是java執行緒建立並沒有預留超時引數，研究了一下網上也沒找到

JAVA多執行緒(三) 執行緒池和鎖的深度化

github演示程式碼地址：https://github.com/showkawa/springBoot_2017/tree/master/spb-demo/src/main/java/com/kawa/thread 1.執行緒池 1.1 執行緒池是什麼 Java中的執行緒

【多執行緒】執行緒池

1、好處第一：降低資源消耗。通過重複利用已建立的執行緒降低執行緒建立和銷燬造成的消耗。第二：提高響應速度。當任務到達時，任務可以不需要等到執行緒建立就能立即執行。第三：提高執行緒的可管理性。執行緒是稀缺資源，如果無限制地建立，不僅會消耗系統資源，還會降低系統的穩定性，使用執行

多執行緒+代理ip池 爬蟲

相關推薦

多執行緒+代理ip池爬蟲