python 爬蟲proxy,BeautifulSoup+requests+mysql 爬取樣例

阿新 • • 發佈：2018-11-10

實現思路：

由於反扒機制，所以需要做代理切換，去爬取，內容通過BeautifulSoup去解析，最後入mysql庫

1.在西刺免費代理網獲取代理ip，並自我檢測是否可用

2.根據獲取的可用代理ip去傳送requests模組的請求，帶上代理

3.內容入庫

注：日誌模組在上一篇隨筆

下面附上程式碼

1.可用代理獲取

# -*- coding: utf-8 -*-
import random
import time
import requests
from bs4 import BeautifulSoup
import log_config
logger  
= log_config.getlogger('ip_pool', 'ip_pool.log')


class IPProxyPool:
    # 初始化，定義一個空陣列ip_list用於儲存ip代理
    def __init__(self):

        # 代理ip獲取網址
        self.proxy_url_list = ['http://www.xicidaili.com', 'http://www.xicidaili.com/nn', 'http://www.xicidaili.com/nn/2']
        self.ip_list = []
        self.headers  
= {'Host': 'www.xicidaili.com',
                        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36'
                        }
        self.user_agent_list = [
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1 
",
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
        ]

    def get_xici_all_ip(self):
        ip_lists = []
        for proxy_url in self.proxy_url_list:
            html = requests.get(proxy_url, headers=self.headers)
            content = html.text
            soup = BeautifulSoup(content, "lxml")
            ip_body = soup.find("table", attrs={"id": "ip_list"})
            ip_page_lists = ip_body.find_all("tr", attrs={"class": "odd"})
            ip_lists = ip_lists + ip_page_lists
        return ip_lists

    def get_ip_list(self):
        ip_lists = self.get_xici_all_ip()
        ip_test_pool = []
        for ip in ip_lists:
            http_type = ip.find_all("td")[5].get_text()
            if http_type == 'HTTP':
                ip_test_account = ip.find_all("td")[1].get_text()
                ip_test_port = ip.find_all("td")[2].get_text()
                ip_port_dict = {ip_test_account: ip_test_port}
                ip_test_pool.append(ip_port_dict)

        for ipn in ip_test_pool:
            ip_addr = "http://"
            for ip, port in ipn.items():
                ip_addr = ip_addr + ip + ':' + port
            # ip代理有效性檢驗
            statu = self.check_ip(ip_addr)
            if statu:
                # 將有效ip代理儲存至陣列ip_list中
                self.ip_list.append(ip_addr.strip())

    def check_ip(self, ip):
        return self.microbell_proxy_ip(ip)

    def microbell_proxy_ip(self, ip):
        try:
            test_url = 'http://www.microbell.com/elitelist.html'
            proxy = {'http': ip}
            user_agent = self.random_agent()
            headers_agent = {'User-Agent': user_agent}
            response_body = requests.get(test_url, headers=headers_agent, proxies=proxy, timeout=5)
            if response_body.status_code == 200:
                # 即使返回了200,也可能不是我們訪問的頁面，而是代理給我們的頁面,所以還需要做判斷
                #response_body.encoding('gbk')
                content = response_body.text
                soup = BeautifulSoup(content, "lxml")
                body = soup.find("div", attrs={"class": "index_docmain"})
                if body is None:
                    return False
                if body.get_text() != "":
                    logger.info("ok proxy ip %s" % ip)
                    return True
                else:
                    return False

            else:
                return False

        except Exception as e:
            logger.exception(e.message)
            time.sleep(1)
            return False

    def random_agent(self):
        user_agent = random.choice(self.user_agent_list)
        return user_agent


if __name__ == "__main__":
    IPProxyPool = IPProxyPool()
    IPProxyPool.get_ip_list()
    print IPProxyPool.ip_list

    # proxies = {
    #     "http": "http://118.190.95.35:9001"  # 代理ip
    # }
    #
    # headers = {
    #     'Host': 'www.4399.com',
    #     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36'
    #
    # }
    #
    # http_url = "http://www.4399.com/"
    # try:
    #     res = requests.get(url=http_url, headers=headers, proxies=proxies, timeout=3)
    #     if res.status_code == 200:
    #         print u"訪問網頁成功"
    #     else:
    #         print "faile"
    # except Exception as e:
    #     print e

2.解析介面，獲取想要的內容，併入庫

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import ConfigParser
import datetime
import sys
import pymysql
import requests
from bs4 import BeautifulSoup
import log_config
import time
import random
from agent_and_proxy_ip_pool import IPProxyPool

logger = log_config.getlogger('report', 'report.log')

# 是否獲取今天的資料 0 表示獲取今天的資料，1表示獲取全部資料 2表示頁面沒有資料
get_today_data = 1
if len(sys.argv) != 1:
    if sys.argv[1] == 1:
        get_today_data = 1
    else:
        print 'input error,please input 0->today ,1->all data'
        exit()


class research_report:
    def __init__(self):
        conf = ConfigParser.ConfigParser()
        conf.read("mysql.conf")
        self.ip_proxy_pool = IPProxyPool()
        # self.ip_proxy_pool.get_ip_list()
        # self.ip_pool = self.ip_proxy_pool.ip_list
        # logger.info('You can currently use IP %s' % self.ip_pool)
        #多個可用的cookies

        self.cookies_pool = [
            'c=; ASPSESSIONIDQCQRQQCR=LEOOBOJCBAMFFDHMFBHFJKEE; __guid=188006958.3779224451650617000.1539657585525.2588; ASPSESSIONIDSATRTTDQ=MCDEIPFDLLKBNHPBBEMGBGFC; safedog-flow-item=C07B93F771; UM_distinctid=16680b1e9e411f-0674a4c85ccc2-454c092b-1fa400-16680b1e9e539d; CNZZDATA1752123=cnzz_eid%3D2075545357-1539752826-%26ntime%3D1539752826; Hm_lvt_d554f0f6d738d9e505c72769d450253d=1539757436; robih=vXuWjYMDvV6XmNxOuNmP; MBpermission=0; MBname=sunyue1993; did=67A671BFE; monitor_count=6; Hm_lpvt_d554f0f6d738d9e505c72769d450253d=1539757719'
        ]
        self.get_today = get_today_data
        self.user = conf.get("mysql", "user")
        self.mysql_password = conf.get("mysql", "password")
        self.database_name = conf.get("mysql", "database")
        self.host = conf.get("mysql", "host")
        self.port = conf.get("mysql", "port")
        self.site_url = 'http://www.microbell.com/'
        self.page_url = 'http://www.microbell.com/elitelist_1_0.html'
        self.headers = {'Host': 'www.microbell.com',
                        'Accept': 'application/json, text/javascript, */*; q=0.01',
                        'Accept-Encoding': 'gzip, deflate, sdch', 'Accept-Language': 'zh-CN,zh;q=0.8',
                        'Connection': 'keep-alive'
                        }

    # 生成隨機agent
    def get_random_headers(self):
        # self.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36'
        self.headers['User-Agent'] = self.ip_proxy_pool.random_agent()
        self.headers['Cookie'] = random.choice(self.cookies_pool)

    # 獲取指定陣列中的隨機ip
    def get_random_proxy(self):
        proxy_ip = random.choice(self.ip_pool)
        proxies = {'http': proxy_ip}
        return proxies

    # 獲取列表頁面
    def get_html_content(self, page_num_url):
        try:
            self.get_random_headers()
            req = requests.get(page_num_url, headers=self.headers, timeout=5)
            req.encoding = 'gbk'
            text = req.text
            soup = BeautifulSoup(text, "lxml")
            # soup = body.prettify #美化
            report_list = soup.find_all("div", attrs={"class": "classbaogao_sousuo_list"})
            list_data = []
            logger.info("%s owner %s pages" % (page_num_url, len(report_list)))
            if len(report_list) == 0:
                return 2
            for report_item in report_list:
                url = self.site_url + report_item.table.tr.find_all("td")[1].a["href"]
                title = report_item.table.tr.find_all("td")[1].a["title"]
                item_data = {"url": url, "title": title}
                list_data.append(item_data)
            end_flag = self.get_list_page_data(list_data)
            return end_flag
        except Exception as e:
            logger.exception("get list %s page fail error info : %s" % (page_num_url, e))
            return 2

    # 獲取一頁資料38條的每條的詳情
    def get_list_page_data(self, list_data):
        try:
            # 一頁資料(38)陣列入庫一次
            page_datas = []
            now_date = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
            self.get_random_headers()
            #proxy_ip = self.get_random_proxy()
            for item_data in list_data:
                retry_num = 0
                while retry_num < 3:
                    try:
                        # 休眠兩秒，避免被封
                        t = random.uniform(3, 5)
                        time.sleep(t)
                        req = requests.get(item_data["url"], headers=self.headers, timeout=5)
                        req.encoding = 'gbk'
                        text = req.text
                        soup = BeautifulSoup(text, "lxml")
                        detail_div = soup.find("div", attrs={"class": "leftn2"})
                        tr_s = detail_div.table.find_all("tr")
                        public_time = tr_s[0].find_all("td")[2].span.get_text()
                        if self.get_today == 0:
                            # 如果是爬取今天的資料，會進入這個判斷，如果當期獲取的檔案的時間早於今天就直接退出迴圈
                            logger.info("now spider today data")
                            today = datetime.date.today()
                            today_time = int(time.mktime(today.timetuple()))
                            time_array = time.strptime(public_time, "%Y-%m-%d %H:%M:%S")
                            pub_time = int(time.mktime(time_array))
                            if pub_time < today_time:
                                break
                        abstract_br_replace = soup.find("div", attrs={"class": "p_main"}).p.span
                        str1 = str(abstract_br_replace).replace("<br/>", r"\r\n")
                        abstract_object = BeautifulSoup(str1, "lxml")
                        [s.extract() for s in abstract_object("font")]
                        abstract = abstract_object.get_text()
                        sec_name = tr_s[0].find_all("td")[0].span.get_text()
                        sec_code = tr_s[0].find_all("td")[1].span.get_text()
                        report_type = tr_s[1].find_all("td")[0].span.get_text()
                        doc_type = tr_s[1].find_all("td")[1].span.get_text()
                        author = tr_s[1].find_all("td")[2].span.get_text()
                        provenance = tr_s[2].find_all("td")[0].span.get_text()
                        pages = tr_s[2].find_all("td")[1].span.get_text()
                        rec_rate = tr_s[2].find_all("td")[2].span.get_text()
                        doc_size = tr_s[3].find_all("td")[0].span.get_text()
                        promulgator = tr_s[3].find_all("td")[1].span.get_text()
                        #doc_url_str = soup.find("div", attrs={"class": "anniu_main"}).a["onclick"]
                        doc_url_str = ""
                        doc_url_list = doc_url_str.split(",")
                        doc_url = self.site_url + doc_url_list[2]
                        title = item_data["title"]
                        create_time = now_date
                        update_time = now_date
                        page_data = [title, sec_name, sec_code, public_time, report_type, doc_type, author, provenance,
                                     pages,
                                     rec_rate, doc_size, doc_url, promulgator, abstract, create_time, update_time]
                        page_datas.append(page_data)
                        break
                    except Exception as e:
                        retry_num += 1
                if retry_num == 3:
                    logger.warning("current page is not get %s" % item_data)
            if len(page_datas) > 0:
                self.set_data_mysql(page_datas)
                if self.get_today == 0:
                    if len(page_datas) < 38:
                        return 0
                return 1
            else:
                return 2
        except Exception as e:
            logger.error("get detail  page fail" % list_data, e)
            return 2

    # 批量插入mysql
    def set_data_mysql(self, page_datas):
        # 建立連線
        conn = pymysql.connect(host=self.host, port=int(self.port), user=self.user, passwd=self.mysql_password,
                               db=self.database_name)
        try:
            # 建立遊標
            cursor = conn.cursor()
            sql = "INSERT INTO report(title,sec_name,sec_code,public_time,report_type,doc_type,author," \
                  "provenance,pages,rec_rate,doc_size,doc_url,promulgator,abstract,create_time,update_time) " \
                  "VALUES(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
            effect_row = cursor.executemany(sql, page_datas)
            # 提交sql，不提交不會進入mysql
            conn.commit()
            logger.info("already into dabatabase %s" % effect_row)
        finally:
            conn.close()

    # 登入，獲取cookie,暫時沒用
    # def login_in(self):
    #     data = {
    #         'namelogin': self.user_name,
    #         'pwdlogin': self.password
    #     }
    #     req = requests.post(self.login_url, headers=self.headers, data=data)
    #     req.encoding = req.apparent_encoding
    #     cookies = req.cookies.get_dict()
    #     print cookies

    # http://www.microbell.com/elitelist_1_0.html 初始頁面，後面的頁面只有url中的"1"這個值會變動
    def process(self):
        # 分析頁面，總共不超過360頁
        if get_today_data == 0:
            for i in range(1, 20):
                base_url = "http://www.microbell.com/elitelist_%s_0.html" % i
                logger.info("當前獲取頁面url=%s" % base_url)
                end_flag = self.get_html_content(base_url)
                if end_flag == 0:
                    logger.info("The page %s is already the last page" % base_url)
                    break
        else:
            for i in reversed(range(1, 107)):
                base_url = "http://www.microbell.com/elitelist_%s_0.html" % i
                logger.info("當前獲取頁面url=%s" % base_url)
                self.get_html_content(base_url)


if __name__ == "__main__":
    research_class = research_report()
    research_class.process()
else:
    research_class = research_report()
    research_class.process()

python 爬蟲proxy,BeautifulSoup+requests+mysql 爬取樣例

實現思路：由於反扒機制，所以需要做代理切換，去爬取，內容通過BeautifulSoup去解析，最後入mysql庫 1.在西刺免費代理網獲取代理ip，並自我檢測是否可用 2.根據獲取的可用代理ip去傳送requests模組的請求，帶上代理 3.內容入庫注：日

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

[原創]python爬蟲之BeautifulSoup,爬取網頁上所有圖片標題並存儲到本地文件

%20 分享圖片本地 col cbc quest 執行 python div from bs4 import BeautifulSoup import requests import re import os r = requests.get("https:/

大神教你如果學習Python爬蟲如何才能高效地爬取海量數據

Python 爬蟲分布式大數據編程 Python如何才能高效地爬取海量數據我們都知道在互聯網時代，數據才是最重要的，而且如果把數據用用得好的話，會創造很大的價值空間。但是沒有大量的數據，怎麽來創建價值呢？如果是自己的業務每天都能產生大量的數據，那麽數據量的來源問題就解決啦，但是沒有數

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

需要 tis tca wcf 爬取 html eas request 有用 1.環境 python3.6 需要用到的庫： re、os、requests 2.簡介王者榮耀可以算得上是比較受歡迎的手遊之一了，應該有不少的人都入坑過農藥，我們今天的目的就是要爬取王者榮耀的高

python 爬蟲之BeautifulSoup 庫的基本使用

rip data lin value 訪問 pytho 輕松 register tex import urllib2url = ‘http://www.someserver.com/cgi-bin/register.cgi‘values = {}values[‘name‘]

Python爬蟲初探 - selenium+beautifulsoup4+chromedriver爬取需要登錄的網頁信息

-- pro tag bug gui 結果 .com 工作 ges 目標之前的自動答復機器人需要從一個內部網頁上獲取的消息用於回復一些問題，但是沒有對應的查詢api，於是想到了用腳本模擬瀏覽器訪問網站爬取內容返回給用戶。詳細介紹了第一次探索python爬蟲的坑。準備工作

python爬蟲之BeautifulSoup學習

1. Beautiful Soup的簡介簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

2018/10/29 1.所思所想：雖然自己的考試在即，但工作上不能有半點馬虎，要認真努力，不辜負期望。中午和他們去吃飯，算是吃飯創新吧。下午爬了雞西的網站，還有一些欄位沒爬出來，正則用的不熟悉，此時終於露出端倪，心情不是很好。。明天上午把正則好好看看。 2.工作： [1].哈爾濱：html p

Python爬蟲系列之小說網爬取

今日爬蟲—小說網再次宣告所有爬蟲僅僅為技術交流，沒有任何惡意，若有侵權請☞私信☚ 此次爬取由主頁爬取到各本小說地址，然後通過這些地址獲取到小說目錄結構，在通過目錄結構獲取章節內容，同時以小說名字為資料夾，每一個章節為txt文字儲存到本地。話不多說，直接上程式碼

python爬蟲學習筆記-requests用法

python內建的urllib在某些高階應用時存在很多不方便的地方且功能似乎也沒有想象的那麼強大，於是更為強大第三方庫requests庫應運而生，有了它，cookies，代理，登陸操作都是簡化很多。首先確認安裝requests庫： pip install requests 1.類

Python爬蟲入門之豆瓣短評爬取

採用工具pyCharm，python3，工具的安裝在這就不多說了，之所以採用python3是因為python2只更新維護到2020年。新建python專案 File-Settings-project interpreter，點右上角+號，安裝requests，lx

Python爬蟲系列-BeautifulSoup詳解

安裝 pip3 install beautifulsoup4 解析庫解析器使用方法優勢劣勢 Python標準庫 BeautifulSoup(markup,'html,parser') Python

Python爬蟲-Proxy代理的使用

1 ''' 2 構建代理叢集/佇列 3 每次訪問伺服器，隨機抽取一個代理 4 抽取可以使用 random.choice 5 6 分析步驟： 7 1. 構建代理群 8 2. 每次訪問，隨機選取代理並執行 9 ''' 10 11 12 from urllib import reque

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

初涉爬蟲時的requests庫---爬取貼吧內容

requests庫在爬蟲的實踐開發運用中較為常用，實現HTTP請求協議時方法簡單，操作方便，易於實現。對於一般的靜態網頁，都可以方便抓取想要的內容，比起scrapy等框架有明顯的優勢，爬取定向的簡單內容，是極好的。下面就是運用requests模組，實現一個簡單的爬取貼吧網

Python爬蟲六：字型反爬處理（貓眼+汽車之家）-2018.10

環境：Windows7 +Python3.6+Pycharm2017 目標：貓眼電影票房、汽車之家字型反爬的處理 --------全部文章：京東爬蟲、鏈家爬蟲、美團爬蟲、微信公眾號爬蟲、字型反爬--------- 前言：字型反爬，

Python爬蟲(二十)_動態爬取影評信息

type 8.0 out span none function title hot output 本案例介紹從JavaScript中采集加載的數據。更多內容請參考:Python學習指南 #-*- coding:utf-8 -*- import requests imp

python 爬蟲proxy,BeautifulSoup+requests+mysql 爬取樣例

相關推薦