python+selenium+scrapy搭建簡單爬蟲

阿新 • • 發佈：2019-01-06

接觸爬蟲也有一段時間了，下面我就來簡單介紹一種我認為較為直觀有效的方式。基本搭配：python2.7+selenium+scrapy，selenium用來模擬真實使用者操作瀏覽器的過程，scrapy用來提取網頁內容。

關於安裝方式我就暫且提一下我接觸過的兩種：

1.安裝python2.7，使用pip install+包名的形式安裝selenium和scrapy。一般這種情況下裝scrapy都比較痛苦。如果直接使用命令列無法安裝成功，那麼可以去官網上下載對應的包直接執行。

2.安裝Anaconda，使用pip install+包名或者conda install+包名的形式安裝selenium和scrapy。

爬取的過程概括一下就是首先定義一個瀏覽器物件，然後使用這個物件實現諸如滑鼠點選，鍵盤傳送等一系列的操作。對於想要提取內容的頁面，就使用scrapy中的Selector構造xpath去解析網頁原始碼。

這麼講可能太抽象，所以我把一個比較簡單的爬取指定企業招聘資訊的程式貼出來具體講解。實現基本操作的程式碼上方均有註釋。

#coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

from selenium import webdriver
from selenium.webdriver.common.keys import 
 Keys
from selenium.webdriver.common.action_chains import ActionChains
from scrapy.selector import Selector
import time
import os

def writeFile(dirPath, page):
    data = Selector(text = page).xpath("//td[@class='zwmc']/div/a")
    titles = data.xpath('string(.)').extract()
    timeMarks = Selector(text = browser.page_source).xpath("//td[@class='gxsj']/span/text()" 
).extract()
    links = Selector(text = browser.page_source).xpath("//td[@class='zwmc']/div/a/@href").extract()

    for i in range(len(titles)):
        fileName = titles[i].replace(':', '-').replace('/', '-').replace('\\', '-').replace('*', 'x').replace('|', '-').replace('?', '-').replace('<', '-').replace('>', '-').replace('"', '-').replace('\n', '-').replace('\t', '-')
        filePath = dirPath + os.sep + fileName + '.txt'

        with open(filePath, 'w') as fp:
            fp.write(titles[i])
            fp.write('$***$')
            fp.write(timeMarks[i])
            fp.write('$***$')
            fp.write(links[i])


def searchFunction(browser, url, keyWord, dirPath):
    browser.get(url)

#勾選城市
    browser.find_element_by_xpath("//input[@id='buttonSelCity']").click()
    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[1]/td/label/input[@iname='北京']").click()
    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[1]/td/label/input[@iname='上海']").click()
    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[3]/td/label/input[@iname='南京']").click()
    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[4]/td/label/input[@iname='蘇州']").click()
    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[4]/td/label/input[@iname='無錫']").click()
    browser.find_element_by_xpath("//div[@class='sPopupTitle250']/div/a[1]").click()

#定位搜尋框
    searchBox = browser.find_element_by_xpath("//div[@class='keyword']/input[@type='text']")

#傳送搜尋內容 
    searchBox.send_keys(keyWord)

#確認搜尋   
    browser.find_element_by_xpath("//div[@class='btn']/button[@class='doSearch']").click()

    totalCount = Selector(text = browser.page_source).xpath("//span[@class='search_yx_tj']/em/text()").extract()[0]
    pageOver = int(totalCount) / 40
    for i in range(pageOver):
        time.sleep(3)
        writeFile(dirPath, browser.page_source)
        browser.find_element_by_link_text("下一頁").click()    

    time.sleep(3)
    writeFile(dirPath, browser.page_source) 


if __name__ == '__main__':
    print 'START'
    url = 'http://www.zhaopin.com/'
    keyWord = u"華為技術有限公司"
    dirPath = keyWord + u"招聘資訊"

    if not os.path.exists(dirPath):
        os.makedirs(dirPath)

#定義一個火狐瀏覽器物件
    browser = webdriver.Firefox()
    searchFunction(browser, url, keyWord, dirPath)

    browser.close()
    print 'END'

python+selenium+scrapy搭建簡單爬蟲

接觸爬蟲也有一段時間了，下面我就來簡單介紹一種我認為較為直觀有效的方式。基本搭配：python2.7+selenium+scrapy，selenium用來模擬真實使用者操作瀏覽器的過程，scrapy用來提取網頁內容。關於安裝方式我就暫且提一下我接觸過的兩種：

python搭建簡單爬蟲框架，爬取獵聘網的招聘職位資訊

該專案將主要有五個部分負責完成爬取任務，分別是：URL管理器，HTML下載器，HTML解析器，資料儲存器，爬蟲排程器。具體程式碼如下： URL管理器： import hashlib import pickle import time class UrlManag

python+selenium環境搭建以及遇到的坑

三方庫很大的第三方庫 git 工具解壓縮 .py clas 安裝python ---恢復內容開始--- window10下環境搭建 1.安裝python https://www.python.org/downloads/ 在該網址下下載python最新版本，點擊

python+selenium環境搭建

web image all bubuko org man ngram 郵箱附加我使用的是win10系統，將要搭建的版本分別是：python版本-3.7.0，selenium版本-3.14.1，火狐瀏覽器版本-61.0.2，geckodriver版本-0.21.0 現在開

通過scrapy實現簡單爬蟲

Scrapy概述網路爬蟲，大概很多人都聽說過吧。它是通過一定的規則，自動抓取網際網路網站上的文章、資訊、圖片等等內容。常見的應用就是搜尋引擎。而Scrapy則是實現網路爬蟲的方式之一。官方描述的Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可

python之scrapy(五)分散式爬蟲

Scrapy是一個比較好用的Python爬蟲框架，你只需要編寫幾個元件就可以實現網頁資料的爬取。但是當我們要爬取的頁面非常多的時候，單個主機的處理能力就不能滿足我們的需求了（無論是處理速度還是網路請求的併發數），這時候分散式爬蟲的優勢就顯現出來。一、分散式爬蟲的原理下

環境搭建---1.1---python+selenium環境搭建

1.安裝python3.5 https://www.python.org/downloads/release/python-350/ 2.安裝selenium：開啟命令列，執行：pip install selenium==2.48.0 解除安裝命令

python之Django搭建簡單的專案

1、安裝好Python和Djano的環境，檢視版本時需要注意大小寫(centos為例)：2、新建工程執行命令：django-admin startproject myproject有些需要寫成：django-admin.py startproject myproject __

【Python資料分析】簡單爬蟲，爬取知乎神回覆

歡迎加入Python學習交流QQ群：535993938 禁止閒聊！名額有限！非喜勿進！看知乎的時候發現了一個 “如何正確地吐槽” 收藏夾，

python selenium環境搭建筆記

安裝python（很簡單，網上很多教程）安裝selenium DOS視窗輸入：python -m pip install selenium 檢視安裝的selenium版本號開啟命

python實現scrapy定時執行爬蟲

專案需要程式能夠放在超算中心定時執行，於是針對scrapy寫了一個定時爬蟲的程式main.py ，直接放在scrapy的儲存程式碼的目錄中就能設定時間定時多次執行。最簡單的方法：直接使用Timer類 import time import os whi

python+selenium功能強大的爬蟲操作

1.宣告瀏覽器物件 selenium支援多個瀏覽器，也支援手機端的瀏覽器，除此之外還有Phantomjs，下面舉一個簡單的例子，

Python之Scrapy爬蟲框架安裝及簡單使用

intern 原理 seda api release linux發行版 3.5 pic www 題記：早已聽聞python爬蟲框架的大名。近些天學習了下其中的Scrapy爬蟲框架，將自己理解的跟大家分享。有表述不當之處，望大神們斧正。一、初窺Scrapy Scrapy是

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

python爬蟲的最佳實踐(五)--selenium+PhantomJS的簡單使用

Ps：又到了我們的ps環節，不知道上次大家嘗試的如何，這次我們將簡單介紹如何使用selenium+PhantomJS來抓取非同步載入的網頁資料資訊。當然，selenium是一個非常強大的自動化工具，可以做非常多的事，有興趣的同學可以自行了解一下。這次我們的順序稍稍變化一下，因為牽扯到配置環境。環境配置

python網路爬蟲（14）使用Scrapy搭建爬蟲框架

目的意義爬蟲框架也許能簡化工作量，提高效率等。scrapy是一款方便好用，拓展方便的框架。本文將使用scrapy框架，示例爬取自己部落格中的文章內容。說明學習和模仿來源：https://book.douban.com/subject/27061630/。建立scrapy工程首先當然要確

Python 和 Scrapy 爬蟲框架部署

python scrapy 爬蟲框架 Scrapy 是采用Python 開發的一個快速可擴展的抓取WEB 站點內容的爬蟲框架。安裝依賴 yum install gcc gcc-c++ openssl mysql mysql-server libffi* libxml* libxml2 l

selenium+python環境的搭建的自動化測試

ignore ble 卸載 onf specified oot mea png tar 一、安裝python：我安裝的是2.7.13版本的；可以在CMD下運行python命令查看是否安裝python，以及安裝版本；在https://www.pyt

python+selenium自動化環境搭建之後，能打開firefox，卻不能執行自動化操作

drive 環境軟件能夠也會 files ram com 工具 python+selenium自動化環境搭建之後，選擇執行，能夠打開firefox，但是卻不能繼續執行後續操作。原因是selenium的版本與firefox的版本不兼容。解決辦法： 1.將firefox

python+selenium自動化環境搭建

python+selenium1、下載python安裝。　　https://www.python.org/downloads/release/python-351/ 根據自己的操作系統32/64 位，選擇相應的版本。安裝過程我就沒必要描述，我的安裝目錄為：C:\Python35 2、進入cmd(window

python+selenium+scrapy搭建簡單爬蟲

相關推薦