1. 程式人生 > >Python爬蟲:splash的安裝與簡單示例

Python爬蟲:splash的安裝與簡單示例

安裝splash

1、安裝docker(參考:mac安裝docker
2、安裝splash

docker pull scrapinghub/splash  # 安裝

docker run -p 8050:8050 scrapinghub/splash  # 執行

程式碼示例

import requests
import time
from scrapy import Selector


def timer(func):
    def inner(*args):
        start = time.time()
        response = func(*args)
        print("time: %s"
% (time.time() - start)) return response return inner @timer def use_request(url): return requests.get(url) @timer def use_splash(url): splash_url = "http://localhost:8050/render.html" args = { "url": url, "timeout": 5, "image": 0 } return requests.get(splash_url, params=args) if
__name__ == '__main__': url = "http://quotes.toscrape.com/js/" r1 = use_request(url) sel1 = Selector(r1) text = sel1.css(".quote .text::text").extract_first() print(text) r2 = use_splash(url) sel2 = Selector(r2) text = sel2.css(".quote .text::text").extract_first() print(text) """ time: 0.632809877396 None time: 0.685022830963 “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.” """

通過測試,發現需要splash對網頁進行了渲染,獲取到了資料,而且速度還很快

args引數說明:
url: 需要渲染的頁面地址
timeout: 超時時間
proxy:代理
wait:等待渲染時間
images: 是否下載,預設1(下載)
js_source: 渲染頁面前執行的js程式碼

相關推薦

Python爬蟲splash安裝簡單示例

安裝splash 1、安裝docker(參考:mac安裝docker) 2、安裝splash docker pull scrapinghub/splash # 安裝 docker run

python爬蟲框架Scrapy安裝爬取示例

環境:python3.6,自帶pip # 安裝 pip install scrapy 自動下載所需元件 Installing collected packages: lxml, cssselect, six, w3lib, parsel, pyasn1, attrs, idn

Django學習筆記(一)環境安裝簡單實例

rom dex ftime not host 名稱 本機 turn perl Django學習筆記(一):環境安裝與簡單實例 通過本文章實現: Django在Windows中的環境安裝 Django項目的建立並編寫簡單的網頁,顯示歡迎語與當前時間 一、環境安裝 結合版

Python爬蟲繪圖matplotlib詞雲

1 繪製條形圖 Python學習資料或者需要程式碼、視訊加Python學習群:9604104452 繪製智聯招聘職位崗位數量圖 3 詞雲 “詞雲”這個概念由美國西北大學新聞學副教授、新媒體專業主任裡奇·戈登(Rich Gordon)提出。“詞雲”就是對網路文字中出現頻率較高

python爬蟲XPath語法和使用示例

# python爬蟲:XPath語法和使用示例 >XPath(XML Path Language)是一門在XML文件中查詢資訊的語言,可以用來在XML文件中對元素和屬性進行遍歷。 ## 選取節點 XPath使用路徑表示式來選取XML文件中的節點或者節點集。這些路徑表示式和我們在常規的電腦檔案系統中看到的

PYTHON REQUESTS的安裝簡單運用

Coding import out compile 鏈接 客戶端 detail 但我 編輯 PYTHON REQUESTS的安裝與簡單運用 2013.07.09 強烈推薦!requests官方文檔已有了中文版,請見http://cn.python-requests.o

Python爬蟲Request Payload和Form Data的簡單區別

Request Payload 和 Form Data 請求頭上的引數差別在於: Content-Type Form Data Post表單請求 程式碼示例 headers = { "Content-Type": "application/x-www-form-urlen

MongoDB(一)Python-windows下mongodb安裝使用整理

序言: 本部落格通過六大方面介紹如下內容: 前言介紹:介紹了包含MongoDB、NoSQL、關係型資料庫和非關係型資料的優缺點等內容。 Windows 平臺安裝MongoDB:介紹瞭如何在Windows下安裝MongoDB,學習python時可能會遇到安裝MongoDB,對於習慣

爬蟲 Heritrix 學習筆記 —— Heritrix安裝簡單配置

Heritrix安裝與簡單配置                由於專案需要,需要利用爬蟲在網際網路上爬取資料,在 Nutch 與 Heritrix 之間選擇了 Heritrix,前段時間自己寫了一個爬蟲,效率太低了,不過對於爬蟲的基本情況已經心中有算,現在利用別人寫的爬蟲

python web py安裝簡單使用

web.py是一個輕量級的python web框架,簡單而且功能強大。相對flask和Django,web.py更適合初學者來學習和了解web開發的基礎知識。   安裝: pip install web.py==0.40-dev1測試安裝是否成功: 複製web.py官網右上角的程式

android開發(0)android studio的下載安裝簡單使用 | sdk的安裝編譯

ger 準備 開發環境 view 選擇 集成開發環境 alt 尋找 control android studio,簡稱AS,是集成開發環境,所謂集成,就是集編輯、編譯、調試、打包等於一體。簡單來說,通過AS,就可以開發出在android系統上運行的APP。 我使用的是mac

Python 爬蟲 簡單的爬有道翻譯

import urllib.request import urllib.parse import json while True : content = input("請輸入需要翻譯的內容:

Python程式設計生成器yieldyield from區別簡單理解

yield yield不僅可以返回值,也可以接收值 # yield返回值, 生成器 def gen(): for x in ["a", "b", "c"]: yield

Nginx初探究安裝簡單使用

在學習淘淘商城的過程中接觸到了nginx,今天就把使用它的過程記錄下來,作為留存。 一、什麼是Nginx Nginx是一款高效能的http伺服器/反向代理伺服器及電子郵件(IMAP/POP3)代理伺服器。由俄羅斯的程式設計師Igor Sysoev所開發,官

python數字圖像處理(1)環境安裝配置

rom ima 空間 都是 5.0 軟件 選項 png tar 轉載:https://www.cnblogs.com/denny402/p/5121501.html 一提到數字圖像處理編程,可能大多數人就會想到matlab,但matlab也有自身的缺點: 1

Python爬蟲爬蟲前得了解的事兒

編寫 election 檢查 語言 jpg mage 圖片 一個 網頁 這是關於Python的第14篇文章,主要介紹下爬蟲的原理。 提到爬蟲,我們就不得不說起網頁,因為我們編寫的爬蟲實際上是針對網頁進行設計的。解析網頁和抓取這些數據是爬蟲所做的事情。 對於大部分網頁來講,它

python爬蟲爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻:http://www.budejie.com/video/新建一個py文件,代碼如下:#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

gitlab安裝簡單配置

gitlab1、官網安裝文檔:https://about.gitlab.com/downloads/#centos7 sudo yum install curl policycoreutils openssh-server openssh-clients sudo systemctl enable sshd

Python爬蟲新浪新聞詳情頁的數據抓取(函數版)

earch edit arm python爬蟲 print 詳情 contents enter uwa 上一篇文章《Python爬蟲:抓取新浪新聞數據》詳細解說了如何抓取新浪新聞詳情頁的相關數據,但代碼的構建不利於後續擴展,每次抓取新的詳情頁時都需要重新寫一遍,因此,我們需

Python爬蟲HTTP協議、Requests庫

.org clas python爬蟲 print 通用 娛樂 信息 傳輸協議 介紹 HTTP協議: HTTP(Hypertext Transfer Protocol):即超文本傳輸協議。URL是通過HTTP協議存取資源的Internet路徑,一個URL對應一個數據資源。