scrapy整合hbase爬取資料並存入hbase

阿新 • • 發佈：2019-02-14

在網上看了大篇的帖子都是關於scrapy與mongodb、mysql、redis等整合的文章，唯獨沒有看到scrapy與hbase整合的文章。今天動手實驗了一下，整理成本篇博文，分享給大家。

scrapy爬取資料的例子網上很多，本人在此就不再贅訴了。

此處只著重描寫scrapy如何入庫至hbase。

本文主要通過HappyBase操作hbase。

HappyBase 是 FaceBook 員工開發的操作 HBase 的 Python 庫，其基於 Python Thrift，但使用方式比 Thrift 簡單、簡潔許多，已被廣泛應用。

1、安裝happybase
pip install happybase

2、啟動hbase thrift服務
nohup hbase thrift -p 9090 start &

3、在scrapy專案下setting.py檔案中定義HBASE_HOST 和HBASE_TABLE

    HBASE_HOST = '192.168.22.15'
    HBASE_TABLE = 'novel'

4、在pipelines.py中編寫Hbase入庫的Pipeline

class NovelHBasePipeline(object):
    def __init__(self):
        host = settings['HBASE_HOST' 
]
        table_name = settings['HBASE_TABLE']
        connection = happybase.Connection(host)
        table = connection.table(table_name)
        self.table = table

    def process_item(self, item, spider):
        bookName = item['bookName']
        bookTitle = item['bookTitle']
        chapterURL = item['chapterURL' 
]

        self.table.put(md5(bookName + bookTitle).hexdigest(),
                       {'cf1:bookname': bookName, 'cf1:booktitle': bookTitle, 'cf1:chapterurl': chapterURL})
        return item

5、在setting.py檔案中配置編寫的Pipeline

ITEM_PIPELINES = {
    'novelspider.pipelines.NovelspiderPipeline': 500,
    'novelspider.pipelines.NovelHBasePipeline': 1
}

至此，所有的整合工作已經完成，即可執行您的spider爬取資料並存至hbase。

scrapy整合hbase爬取資料並存入hbase

在網上看了大篇的帖子都是關於scrapy與mongodb、mysql、redis等整合的文章，唯獨沒有看到scrapy與hbase整合的文章。今天動手實驗了一下，整理成本篇博文，分享給大家。 scrapy爬取資料的例子網上很多，本人在此就不再贅訴了。此處只

Python3.6實現scrapy框架爬取資料並將資料插入MySQL與存入文件中

# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org

python爬取資料並將其存入mongodb

其實很早就想知道如何將爬取到的資料存入資料庫，並且實現前後臺的互動功能，昨天剛剛看了一集關於爬資料並存資料的視訊，今天，在這裡總結一下~ 以下為最終所需要爬取的資訊：由於需要爬取所有的二手商品資訊，所以以下內容也要爬取到： 1.先寫一個py檔案，用於爬取上述圖片類目導

爬取圖片並存入資料夾中

import urllib.request import urllib.parse import redef handler_url(page,base_url): url = base_url + str(page) + '/' headers = {

Python爬蟲系列（四）（簡單）Dota排行榜爬取，並存入Excel表格

在編寫Python程式的時候，有很多庫供我們選擇，如urllib、requests，BeautifulSoup，lxml，正則表示式等等，使得我們在獲取網頁原始碼或者選擇元素的時候

Python爬蟲-利用百度地圖API介面爬取資料並儲存至MySQL資料庫

首先，我這裡有一份相關城市以及該城市的公園數量的txt檔案：其次，利用百度地圖API提供的介面爬取城市公園的相關資訊。所利用的API介面有兩個： 1、http://api.map.baidu.com/place/v2/search?q=公園&

進行大資料爬取資料，存入Mongodb

爬蟲剛入門，對趕集網進行一次所有商品大資料的爬取使用了多執行緒，存到資料庫裡，目前不知道要爬多久有一個要注意的地方，比如我們要進行兩次爬蟲，一次是把每個專案的連結爬下來，一次是把每個專案裡的詳情資訊爬下來，最好是先把每個專案的連結存下來，並用資料庫儲存，然後再從資料庫取

JAVA 爬取指定網站的資料並存入MySQL資料庫中 maven +httpclient+jsoup+mysql

最近在做一個小專案，因為要用的資料爬取，所以研究了好多天，分享一下自己的方法目錄結構：自己建立maven工程，匯入相關依賴：pom.xml <?xml version="1.0" enco

將scrapy爬蟲框架爬取到的資料存入mysql資料庫

使用scrapy爬取網站資料，是一個目前來說比較主流的一個爬蟲框架，也非常簡單。 1、建立好專案之後現在settings.py裡面把ROBOTSTXT_OBEY的值改為False，不然的話會預設遵循robots協議，你將爬取不到任何資料。 2、在爬蟲檔案裡開始寫

scrapy 詳細例項-爬取百度貼吧資料並儲存到檔案和和資料庫中

Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。使用框架進行資料的爬取那，可以省去好多力氣，如不需要自己去下載頁面、資料處理我們也不用自己去寫。我們只需要關注資料的爬取規則就行，scrap

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

scrapy爬取資料之後，如何存入mysql

pipelines.py檔案中新建MySQLPipeline類： # 匯入庫 from scrapy.utils.project import get_project_settings import

scrapy+selenium　爬取淘寶商城商品數據存入到mongo中

mage 通過 -c style settings 一個 arc lec less １．配置信息 # 設置mongo參數 MONGO_URI = ‘localhost‘ MONGO_DB = ‘taobao‘ #　設置搜索關鍵字 KEYWORDS=[‘小米手機‘,‘華為

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

tps python 分享列表 scrapy 網頁 pytho 分享圖片介紹 *準備工作：爬取的網址：https://www.jianshu.com/p/7353375213ab 爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中小

將豆瓣排名前250爬取資料通過sqlite3存入資料庫

#爬取豆瓣top250電影，並儲存到資料庫 import requests from bs4 import BeautifulSoup import sqlite3 def get_html(web_url): user_agent = 'Mozilla/5.0 (Linux; Andro

Pig指令碼從Hive中load資料並存入到Hbase中

1、我們先建一個Hive表test01: create table test01(name String, age int, phone String,province String, city String) ROW FORMAT DELIMITED FIELDS TERMINATED B

scrapy專案總結——爬取汙染資料的專案

經過一段時間的學習，開始慢慢學會了使用scray簡單的爬取資料。這個專案起源是對汙染資料的需求。起初找到一個網站，嘗試對其進行爬取，但是網站涉及到動態載入的問題，目前本人只學會了靜態網站的爬取，所以放棄了。等後期學習後會返回進行嘗試。網址為： ht

Hadoop整合Hbase，處理完的資料直接存入Hbase中

Hadoop可以清洗計算TB級別的資料，資料清洗結束存入HDFS中，也可以存入到Hbase中，可以方便快速查詢； 1.Hbase中需要建立一張表用來儲存HDFS清洗後的資料： hbase(main):014:0> create_namespace 'hdfs'

scrapy 爬取資料遞歸回掉出錯錯誤日誌【Filtered offsite request to】

爬取zol 網站圖片,無法抓取. 在 setting.py 檔案中設定日誌記錄等級 LOG_LEVEL= 'DEBUG' LOG_FILE ='log.txt' 檢視日誌發現報 2015-11-07 14:43:43+0800 [meizitu] DEBUG: Fi

Scrapy+Seleium爬蟲爬取天眼查資料

#難點： 1.資料介面很難找到，反爬措施很強，所以用的seleium模擬抓取 2.頁面資料字型進行了異常，需要進行反向破解 ###本文用的是天眼查移動端 m.tianyancha.com 進行抓取，輸入公司名可以抓取前面5條具體資訊展示 ###還有網站字

scrapy整合hbase爬取資料並存入hbase

相關推薦