requests使用ip代理時單ip和多ip設定方式，智聯招聘小爬蟲封裝

阿新 • • 發佈：2019-02-15

reqeusts庫，在使用ip代理時，單ip代理和多ip代理的寫法不同
（目前測試通過，如有錯誤，請評論指正）

單ip代理模式
省去headers等

import requests
proxy = {
    'HTTPS': '162.105.30.101:8080'
}
url = '爬取連結地址'
response = requests.get(url,proxies=proxy)

多ip代理模式

import requests
#匯入random，對ip池隨機篩選
import random
proxy = [
    {
        'http': 'http://61.135.217.7:80' 
,
        'https': 'http://61.135.217.7:80',
    },
{
        'http': 'http://118.114.77.47:8080',
        'https': 'http://118.114.77.47:8080',
    },
{
        'http': 'http://112.114.31.177:808',
        'https': 'http://112.114.31.177:808',
    },
{
        'http': 'http://183.159.92.117:18118',
        'https': 'http://183.159.92.117:18118' 
,
    },
{
        'http': 'http://110.73.10.186:8123',
        'https': 'http://110.73.10.186:8123',
    },
]
url = '爬取連結地址'
response = requests.get(url,proxies=random.choice(proxy))

簡單的智聯招聘爬蟲封裝

import requests
from bs4 import BeautifulSoup
import re
import ssl
import time
import random

ssl._create_default_https_context = ssl._create_unverified_context

user_agent = [
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)" 
,
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
    "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
]
'''
代理若出錯，替換代理池，但代理池需要更新
'''
# proxy = [
#   {
#       'http': 'http://61.135.217.7:80',
#       'https': 'http://61.135.217.7:80',
#   },
# {
#       'http': 'http://118.114.77.47:8080',
#       'https': 'http://118.114.77.47:8080',
#   },
# {
#       'http': 'http://112.114.31.177:808',
#       'https': 'http://112.114.31.177:808',
#   },
# {
#       'http': 'http://183.159.92.117:18118',
#       'https': 'http://183.159.92.117:18118',
#   },
# {
#       'http': 'http://110.73.10.186:8123',
#       'https': 'http://110.73.10.186:8123',
#   },
# ]

def get_job_txt(city,kw,txt_name):
    for i in range(100):
        time.sleep(2)
        url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?jl={2}&kw={0}&sm=0&p={1}'.format(kw,i,city)

        response = requests.get(url,headers = {'User-Agent': random.choice(user_agent)}).content.decode()

        soup =BeautifulSoup(response,'lxml')
        tables = soup.select('.newlist')[1:]
        if tables:
            for table in tables:
                job = table.select('.zwmc')[0].text
                company = table.select('.gsmc')[0].text
                money = table.select('.zwyx')[0].text
                place = table.select('.gzdd')[0].text
                href = table.select('.zwmc')[0].find('a')['href']
                print(job+'\t'+company+'\t'+money+'\t'+place+'\t'+href+'\n')
                with open('{0}.txt'.format(txt_name),'a+',encoding='utf-8',errors='ignore') as f:
                    f.write(job+'\t'+company+'\t'+money+'\t'+place+'\t'+href+'\n')
        else:
            print('總頁'+ str(i))
            break


if __name__ == '__main__':
    city = input('輸入城市')
    kw = input('輸入崗位')
    txt_name = input('輸入儲存檔名')
    get_job_txt(city=city,kw=kw,txt_name=txt_name)

requests使用ip代理時單ip和多ip設定方式，智聯招聘小爬蟲封裝

reqeusts庫，在使用ip代理時，單ip代理和多ip代理的寫法不同（目前測試通過，如有錯誤，請評論指正）單ip代理模式省去headers等 import requests proxy = { 'HTTPS': '162.105.30.

9、網絡知識(路由交換和ARP協議)+配置單網卡多ip和配置默認路由

路由交換 ARP協議網絡配置網絡知識詳解提問：網絡到底是什麽?我們在電纜中傳輸的都是電信號(高電壓或者是低電壓)，所以高電壓就是1，低電壓就是0，所以規定一定的時間傳輸固定的高低電壓來當做是接收的數據我們所謂的10Mbps：每秒中可以傳輸10M個bit所以別人說你的是4M的帶寬，指的就是4Mbps，要除

linux單網卡多IP

ipaddr 單網卡 eth0 eth1 bootproto 網卡配置項詳解：配置IP、掩碼、網關:ethX DEVICE="eth0" 此配置關聯至的設備。設備名要與文件ifcfg-後ude內容保持一致 BOOTPROTO=none

Nginx反向代理時tomcat日誌獲取真實IP

director div tom log sna tomcat XML localhost 如果對於nginx+tomcat這種架構，如果後端tomcat配置保持默認，那麽tomcat的訪問日誌裏，記錄的就是前端nginx的IP地址，而不是真實的訪問IP。因此，需

網絡管理之配置靜態ip和多網卡綁定

線路 restart 完成 -1016 sla pts centos 技術 bond0 不知怎的，這幾天教室的網絡異常詭異，各種不穩定啊。原先小編都是通過自動獲取（dhcp）的方式來進行網絡連接的，現在這種網絡情況下需要（static）的方式來配置一個固定的ip。步驟如下：

反向代理遠端單臺tomcat 使用ip+埠

1、環境 nginx 10.1.1.161 公網：123.58.251.166 tomcat 10.1.1.103 2、tomcat 配置 [[email protected]-10-1-1-103 ~]# netstat -tnlp Active Internet

nginx反向代理本地單臺wed -使用ip+埠代理

環境：本地外網ip：123.58.251.166 1、配置index.html網頁 [[email protected]-10-1-1-161 conf.d]# cat /web/sing/index.html <h1>www.test1.com</h1>

線程學習--（六）單例和多線程、ThreadLocal

pen single cal final ride args ash public 線程一、ThreadLocal 使用wait/notify方式實現的線程安全，性能將受到很大影響。解決方案是用空間換時間，不用鎖也能實現線程安全。來看一個小例子，在線程內的set、get

Struts2單例和多例

text 屬性用戶修改出現兩個容器 pre min 得到 struts2中action是多例的，即一個session產生一個action如果是單例的話,若出現兩個用戶都修改一個對象的屬性值,則會因為用戶修改時間不同,兩個用戶訪問得到的屬性不一樣,操作得出的結果不一樣

java單例和多例

單個 static 改變 cpu lazy pack out ont 通過背景：最近在學習韓老師的筆記時候發現不是很了解單例和多例，於是通過網上查找資料的方式去學習。設計模式：最佳的實踐，是軟件開發人員在軟件開發過程中面臨一般解決方案，也就是開發的經驗總結。單例模式（

java中單例和多例的區別

單例多例區別線程 1. 什麽是單例多例:所謂單例就是所有的請求都用一個對象來處理，比如我們常用的service和dao層的對象通常都是單例的，而多例則指每個請求用一個新的對象來處理，比如action; 2. 如何產生單例多例:在通用的SSH中，單例在spring中是默認的，如果要產生多例

無人機圖像處理、視頻與高性能單屏和多屏便攜工作站

intel 三維 png 新的速度處理區別 image per 無人機數據處理航測軟件Pix4D.Pix4Dmapper.Pro.v2.0.104 四大優勢：　　專業化、簡單化--PIX4D mapper讓攝影測量進入全新的時代，整個過程完全自動化，並且精度更高

3分鐘教你如何在Word裏快速制作單斜線和多斜線表頭

朋友快速 http pst class 文本框單元 cap 轉發 Word表格裏面斜線表頭應該如何制作呢？你是否還不知道呢？不用擔心今天教大家如在表格裏面快速制作單斜線和多斜線表頭，非常簡單保證你一看就會。 1、制作單斜線表頭方法（1）、直接設置法：操作步驟：鼠標

JavaWeb_day8_MySQL單表和多表

1.關閉和啟動mysql 在命令列視窗輸入：net start mysql（啟動mysql）

動態IP和靜態IP的區別如何使用動態IP

動態IP需要在連線網路時自動獲取IP地址以供使用者正常上網，而靜態IP是ISP或網路裝置分配給使用者的IP地址，可以直接連線上網，不需要獲取IP地址，那靜態ip與動態ip的區別在哪裡呢？　　　　動態IP和靜態IP對網速的影響　　ISP對每個使用者所提供的網速，並

spring bean的單例和多例的使用場景和在單例bean中注入多例（不看後悔，一看必懂）

為什麼用單例或者多例？何時用？之所以用單例，是因為沒必要每個請求都新建一個物件，這樣子既浪費CPU又浪費記憶體；之所以用多例，是為了防止併發問題；即一個請求改變了物件的狀態，此時物件又處理另一個請求，而之前請求對物件狀態的改變導致了物件對另一個請求做了錯誤的處理；

客戶端IP和伺服器IP講解？

IP（網路之間互連的協議）網際網路協議地址（英語：Internet Protocol Address，又譯為網際協議地址），縮寫為IP地址（英語：IP Address），是分配給網上上使用網際協議（英語：Internet Protocol, IP）的裝置的數字標籤。常見的IP地址分為IPv

webpack單入口和多入口配置

配置檔案 webpack.config.js就是Webpack的配置檔案，這個檔案需要自己在專案根目錄下手動建立。建立好後我們對其進行配置，先看下面的程式碼（webpack.config.js的基本結構），這是一個沒有內容的標準webpack配置模版。 webpac

iOS 使用AFN 進行單圖和多圖上傳

圖片上傳時必要將圖片進行壓縮,不然會上傳失敗 1.單張圖上傳 AFHTTPRequestOperationManager *manager = [AFHTTPRequestOperationManager manager]; [manager POST:urlStr

封裝單選和多選

一、HTML <head> <meta charset="UTF-8"> <title></title> <link rel="stylesheet" href="css/CheckBox_Radio.css"

requests使用ip代理時單ip和多ip設定方式，智聯招聘小爬蟲封裝

簡單的智聯招聘爬蟲封裝

相關推薦