python 基礎網路爬蟲 day08

阿新 • • 發佈：2018-11-14

day07

1.response.xpath('xpath表示式')
xpath表示式沒有text()則結果為選擇器物件
xpath表示式加上text()則結果為選擇器文字物件
extract()將列表中所有元素序列化為Unicode字串

2.MongoDB持久化儲存

settings.py設定相關變數
MONGODB_HOST = 'localhost'
MONGODB_PORT = 27017
MONGODB_DBNAME = 'daomudb'
MONGODB_DOCNAME = "daomubiji"

pipelines.py寫程式

import pymongo
class DaomuPipeline(object):
    def __init__(self):
        host = settings.MONGODB_HOST
        port = settings.MONGODB_PORT
        dbName = settings.MONGODB_DBNAME
        docName = settings.MONGODB_DOCNAME
        conn = pymongo.MongoClient(host=host,port=port)
        exec("db=conn."+dbName)
        exec("self.myset=db."+docName)

settings.py中新增專案管道
ITEM_PIPELINES = {'專案名.pipelines.類名':300}

4.MySQL

settings.py設定相關變數
pipelines.py中定義相關的類
settings.py中新增專案管道

5.Scrapy模組方法
yield scrapy.Request(url,callback=解析方法名)

day08

1.如何設定隨機User-Agent

settings.py（用於少量User-Agent切換，不推薦）
1. 定義USER_AGENT變數值
2. DEFAULT_REQUEST_HEADER={"User-Agent":" ",}

設定中介軟體的方法來實現

專案目錄中新建user_agents.py，放大量Agent
```
user_agents = [' ',' ',' ',' ',' ']
```

middlewares.py寫類RandomUserAgentMiddleware

from 專案名.user_agents import user_agents
import random
class RandomUserAgentMiddleware(object):
    def process_request(self,request,spider):
        request.headers['User-Agent'] = random.choice(user_agents)

設定settings.py

DOWNLOADER_MIDDLEWARES = {
    '專案名.middlewares.RandomUserAgentMiddleware':1}

直接在middlewares.py中新增類

class RandomUserAgentMiddleware(object):
    def __init__(self):
        self.user_agents = [' ',' ',' ', ' ']

    def process_request(self,request,spider):
        request.header['User-Agent'] = random.choice(self.user_agents)

2.設定代理（DOWNLOADER MIDDLEWARES）

middlewares.py中新增代理中介軟體ProxyMiddleware

class ProxyMiddleware(object):
        def process_request(self,request,spider):
            request.meta['proxy'] = "http://180.167.162.166:8080"

settings.py中新增

DOWNLOADER_MIDDLEWARES = {
       'Tengxun.middlewares.RandomUserAgentMiddleware': 543,
       'Tengxun.middlewares.ProxyMiddleware' : 250,

3.圖片管道：ImagePipeline

案例：鬥魚圖片抓取案例（手機app）
1. 選單 -->顏值
  http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&offset=0
抓取目標
1. 圖片連結
2. 主播名
3. 房間號
4. 城市
  把所有圖片儲存在/home/tarena/day08/Douyu/Douyu/Images
步驟
1. 前提：手機和電腦為一個區域網
2. Fiddler抓包工具
  Connections：Allow remote computers to connect
3. Win+R：cmd -> ipconfig ->乙太網ip地址
4. 配置手機
  手機瀏覽器 -> http://ip地址:8888
  下載：FiddlerRoot certificate
5. 安裝
  設定 -> 更多 -> 從儲存裝置安裝
6. 設定手機代理
  長按wifi， -> 代理
  ip地址：ip地址
  埠號：埠號

4.ImagePipeline的使用方法

pipelines.py中進行操作

匯入模組
from scrapy.pipelines.images import ImagesPipeline

自定義類，繼承ImagesPipeline

class DouyuImagePipeline(ImagesPipeline):
           # 重寫get_media_requests方法
    def get_media_requests(self,item,info):
               # 向圖片URL發起請求,並儲存到本地
        yield scrapy.Request(url=item['link'])

settings.py中定義圖片儲存路徑
IMAGES_STORE = '/home/tarena/day08/Douyu/Douyu/Images'

5.dont_filter引數
scrapy.Request(url,callback=...,dont_filter=False)
dont_filter引數：False ->自動對URL進行去重
True -> 不會對URL進行去重

6.Scrapy對接selenium + phantomjs

建立專案：JD

middlewares.py中新增selenium

導模組：from selenium import webdriver

定義中介軟體

class seleniumMiddleware(object):
    ...
    def process_request(self,request,info):
        #注意引數為request的url
        self.driver.get(request.url)

settings.py
DOWNLOADER_MIDDLEWARES={"Jd.middleware.seleniumMiddleware":20}

7.Scrapy模擬登陸

建立專案：Renren
建立爬蟲檔案

8.機器視覺與 tesseract

OCR(optical Character Recognition) 光學字元識別
掃描字元：通過字元形狀 --> 電子文字，OCR有很多的底層識別庫

tesseract(谷歌維護的OCR識別庫,不能import,工具)

安裝
1. windows下載安裝包
  https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-setup-3.02.02.exe/download
  安裝完成後新增到環境變數
2. Ubuntu:sudo apt-get install tesseract-ocr
3. Mac:brew install tesseract
驗證
終端：tesserat test1.jpg text1.txt
安裝pytesseract模組
python -m pip install pytesseract
#方法很少，就用1個，圖片轉字串：image_to_string
Python圖片的標準庫
from PIL import Image

示例

驗證碼圖片以wb方式寫入到本地
image = Image.open('驗證碼.jpg')

s = pytesseract.image_to_string(image)

import pytesseract
from PIL import Image

image = Image.open("test1.jpg")
string = pytesseract.image_to_string(image)
print(string)

tesseract案例：登入豆瓣網站（驗證碼輸入）

'''02_tesseract登陸豆瓣案例.py'''
import requests
from lxml import etree
import pytesseract
from PIL import Image
from selenium import webdriver

url = "https://www.douban.com/"
headers = {"User-Agent":"Mozilla/5.0"}
# 先訪問網站得到html
res = requests.get(url,headers=headers)
res.encoding = "utf-8"
html = res.text
# 用xpath把驗證碼圖片的連結給拿出來
parseHtml = etree.HTML(html)
s = parseHtml.xpath('//img[@class="captcha_image"]/@src')[0]
# 訪問驗證碼圖片連結,得到html(位元組流)
res = requests.get(s,headers=headers)
res.encoding = "utf-8"
html = res.content
# 把圖片儲存到本地
with open("zhanshen.jpg","wb") as f:
    f.write(html)
# 把圖片->字串
image = Image.open("test1.jpg")
s = pytesseract.image_to_string(image)
print(s)
# 把這個字串輸入到驗證碼框中
driver = webdriver.Chrome()
driver.get(url)
driver.find_element_by_name("captcha-solution").send_keys(s)
driver.save_screenshot("驗證碼輸入.png")

driver.quit()

9.分散式介紹

條件
1. 多臺伺服器(資料中心，雲伺服器)
2. 網路頻寬
分散式爬蟲方式
1. 主從分散式
2. 對等分散式
scrapy-redis

今日示例

nvj1

python 基礎網路爬蟲 day08

day07 1.response.xpath('xpath表示式') xpath表示式沒有text()則結果為選擇器物件 xpath表示式加上text()則結果為選擇器文字物件 extract()將列表中所有元素序列化為Unicode字串 2.MongoDB持久化儲存 settin

python 基礎網路爬蟲 day03

目錄 day02 1.關於正則解析分組（想要抓取什麼內容就要加小括號（））正則方法 p = re.compile('...') r_list = p.findall(html) 結果：[(),(),(),()] 貪婪匹配： .* 非貪婪匹配

python 基礎網路爬蟲 day05

目錄 day04 lxml解析庫使用流程 from lxml import etree parseHtml = etree.HTML(html) parseHtml.xpath('xpath表示式') xpath匹配規則獲取

python 基礎網路爬蟲 day06

目錄 day05 1.json模組 json.loads() json格式(物件，陣列) ->Python(字典，列表) json.dumps() Python(字典，元組，列表) -> json(物件，陣列) 2.Ajax動態載入

《用Python寫網路爬蟲》第一章踩坑

教程使用環境為pyhon2.x，使用python3.x進行學習時遇到一些坑，記錄下解決辦法。由於python2.x中的urllib2模組在3.x中被整合到了urllib模組中，教程中涉及urllib2的部分的程式碼需調整 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; f

Python：網路爬蟲

網路爬蟲，爬取某網站的某個網頁的所有圖片。 python的網路爬蟲是很強大的。 import urllib.request import re path="http://www.xiaohuar.com/2014.html" content=urllib.request.

用 Python 寫網路爬蟲第2版

內容簡介暢銷的 Python 網路爬蟲開發實戰圖書全新升級版，上一版年銷量近 40000 冊。針對 Python 3.6 版本編寫。 Internet 上包含了許多有用的資料，其中大部分是可以免費公開訪問的。但是，這些資料不容易使用，它們內嵌在網站的架構和樣式中，在提取時也需要多加小心。網

python Scrapy網路爬蟲實戰（存Json檔案以及存到mysql資料庫）

1-Scrapy建立新工程在開始爬取之前，您必須建立一個新的 Scrapy 專案。進入您打算儲存程式碼的目錄中【工作目錄】，執行下列命令，如下是我建立的一個爬取豆瓣的工程douban【儲存路徑為：C:\python27\web】: 命令： scrapy star

分享《Python 3網路爬蟲開發實戰》中文PDF+原始碼崔慶才著

下載： https://pan.baidu.com/s/1XNJwYJRurKN1bScroixpYA 更多資料分享：https://home.cnblogs.com/u/aitf/ 《Python 3網路爬蟲開發實戰》中文PDF+原始碼崔慶才著中文版PDF，

未明學院活動：零基礎網路爬蟲訓練營，還送戴森吹風機、Beats無線耳機

資料驅動商業決策，資料分析對當下企業的重要性可謂眾所周知，因此無論是學生，還是職場白領，紛紛迎合時代發展的需求，從零開始學習資料分析，提升個人技能。入門資料分析的核心要素之一是資料，沒有資料，一切都無從談起。如何在網路上大批量獲取目標資料，單靠一個個手動複製顯然不現實。這個時候，我們就要用到另

Python編寫網路爬蟲帶model

Python編寫網路爬蟲帶model 以http://zuidazy.net電影網站為例，實現步驟如下：一、分析網站：分析網站的程式碼結構：如網址，需要採集的程式碼取，建設使用谷歌瀏覽器如圖：解釋：1.為網址欄，分析網址的相同部分及不同部分 2.為按F12檢視原始碼，為需

【Python】網路爬蟲(靜態網站)例項

本爬蟲的特點： 1.目標：靜態網站 2.級數：二級 3.執行緒：單執行緒（未採用同步，為了避免順序錯亂，因此採用單執行緒） 4.結果：爬取一部網路小說，將分散的各章節合併成一個txt文字檔案獲取網頁模板： def get_url(url): try:

Python 3網路爬蟲開發實戰 (崔慶才)pdf

本書介紹瞭如何利用Python 3開發網路爬蟲，書中首先介紹了環境配置和基礎知識，然後討論了urllib、requests、正則表示式、Beautiful Soup、XPath、pyquery、資料儲存、Ajax資料爬取等內容，接著通過多個案例介紹了不同場景下如何實現資料爬取

《用Python寫網路爬蟲》下載

2018年11月01日 13:27:27 qq_43576443 閱讀數：5 標籤：程式設計資料

python————基礎網路知識

網路協議客戶端/伺服器架構瀏覽器端與伺服器端架構網際網路協議與osi模型網際網路協議按照功能不同分為osi七層或tcp/ip五層或tcp/ip四層每層執行常見的協議 tcp協議和udp協議埠　　我們知道，一臺擁有IP地址的主機可以提

Python大型網路爬蟲專案開發實戰

1 講師簡介 2 課程簡介及特色實戰精通Scrapy爬蟲專案編寫 "Scrapy是Python的一個非常流行的爬蟲框架，使用Scrapy框架可以很方面做出大型爬蟲專案，但Scrapy框架近期才支援Python3，在Python3中使用有許多坑，

Python 3網路爬蟲開發實戰+精通Python爬蟲框架Scrapy學習資料

《Python 3網路爬蟲開發實戰》介紹瞭如何利用Python 3開發網路爬蟲，首先介紹了環境配置和基礎知識，然後討論了urllib、requests、正則表示式、Beautiful Soup、XPath、pyquery、資料儲存、Ajax資料爬取等內容，接著通過多個案例介紹了不同場景下如何實現資料爬取，後介

2018用Python寫網路爬蟲（視訊+原始碼+資料）

課程目標實現Python寫網路爬蟲入門適用人群資料零基礎愛好者,職場新人 ,在校大學生課程簡介 1.基本Http請求以及驗證方式分析 2.Python用於處理Html格式資料beautifulsoup模組 3.Pyhton的request

用python寫網路爬蟲-爬取新浪微博評論

新浪微博需要登入才能爬取，這裡使用m.weibo.cn這個移動端網站即可實現簡化操作，用這個訪問可以直接得到的微博id。分析新浪微博的評論獲取方式得知，其採用動態載入。所以使用json模組解析json程式碼單獨編寫了字元優化函式，解決微博評論中的嘈雜干擾

用Python寫網路爬蟲系列（三）表單處理

import urllib,urllib2 LOGIN_URL = r'http://example.webscraping.com/user/login' LOGIN_EMAIL = '[email protected]' LOGIN_PASSWORD ='q

python 基礎 網路爬蟲 day08

相關推薦

python 基礎網路爬蟲 day08