爬蟲框架開發（4）--- 專案實戰——>新浪滾動新聞資訊實時資料採集

阿新 • • 發佈：2019-01-02

要求：

儲存文章的標題、作者、釋出時間、正文、正文中的圖片連結、文章連結、文章所屬分類
根據網站的實時更新(週期1分鐘)進行採集
時間格式儲存為"yyyy-mm-dd HH:MM:SS"
儲存到mysql資料庫

程式碼實現如下：

新浪滾動的爬蟲檔案：

# spiders/sina_gundong.py
import time

from scrapy_plus.core.spider import Spider
from scrapy_plus.http.request import Request
from scrapy_plus.item import Item
import js2py


class SinaGunDong(Spider):

    name = "sina_gundong"

    headers = {
        "Accept": "*/*",
        "Accept-Encoding": "gzip, deflate",
        "Accept-Language": "en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7",
        "Cache-Control": "no-cache",
        "Connection": "keep-alive",
        "Cookie": "UOR=www.google.com,www.sina.com.cn,; SGUID=1520816292777_83076650; SINAGLOBAL=211.103.136.242_1520816292.736990; SUB=_2AkMt-V_2f8NxqwJRmPEQy2vmZYx_zwjEieKbpa4tJRMyHRl-yD83qnIJtRB6BnlxGSLw2fy6O04cZUKTsCZUeiiFEsZE; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WhpFUZmqbYYLueonGrZIL2c; U_TRS1=0000001a.e268c0.5aaa0d39.35b0731a; lxlrttp=1521688012; Apache=223.72.62.219_1522208561.132697; ULV=1522208952476:6:6:3:223.72.62.219_1522208561.132697:1522208561158; U_TRS2=000000db.81c2323e.5abca69b.ad269c11; ArtiFSize=14; rotatecount=1; hqEtagMode=1",
        # "Host": "roll.news.sina.com.cn",   這裡host必須禁用掉
        "Pragma": "no-cache",
        "Referer": "http://roll.news.sina.com.cn/s/channel.php?ch=01",
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
    }

    def start_requests(self):
        while True:
            # 需要發起這個請求，才能獲取到列表頁資料，並且返回的是一個js語句
            url = "http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=89&spec=&type=&ch=&k=&offset_page=0&offset_num=0&num=120&asc=&page=1&r=0.5559616678192825"
            yield Request(url, parse='parse', filter=False)
            time.sleep(60)     # 每60秒發起一次請求

    def parse(self, response):
        '''響應體資料是js程式碼'''
        # 使用js2py模組，執行js程式碼，獲取資料
        ret = js2py.eval_js(response.body.decode("gbk"))    # 對網站分析發現，資料編碼格式是gbk的，因此需要先進行解碼
        for news in ret.list:    #
            yield Request(news["url"], headers=self.headers, parse='parse_detail', meta={"type": news["channel"]["title"]})

    def parse_detail(self, response):
        response.body = response.body.decode("utf-8")    # 部分頁面無法正確解碼，因此在這裡手動進行解碼操作
        title = response.xpath("//h1[@class='main-title']/text()")[0]
        pub_date = response.xpath("//span[@class='date']/text()")[0]
        try:
            author = response.xpath("//div[@class='date-source']//a/text()")[0]    # 由於作者的提取，有兩種格式，因此這裡使用一個異常捕獲來進行判斷
        except IndexError:
            author = response.xpath("//div[@class='date-source']//span[contains(@class,'source')]/text()")[0]
        content = response.xpath("//div[@class='article']//text()")    # 多個  每一個代表一段
        image_links = response.xpath("//div[@class='article']//img/@src")    # 圖片連結有多個

        yield Item({
            "content": content,    # 正文
            "image_links":image_links,    # 圖片連結
            "title": title,    # 標題
            "pub_date":pub_date,    # 釋出日期
            "author": author,    # 作者
            "url": response.url,    # 文章連結
            "type": response.request.meta["type"],    # 文章所屬分類
        }
    )

專案中新建db.py

# 專案資料夾下db.py
# 依賴：sqlalchemy  pymysql
from sqlalchemy import Column,Integer,Text,DateTime, String
from sqlalchemy.ext.declarative import declarative_base

# 建立物件的基類:
Base = declarative_base()


class Model(Base):
    __tablename__ = 'sina_news'

    id = Column(Integer, primary_key=True, autoincrement=True)    # 主鍵id
    title = Column(String(100), nullable=False)    # 標題
    author = Column(String(20), nullable=False)    # 作者
    pub_date = Column(DateTime, nullable=False)    # 釋出時間
    content = Column(Text, nullable=False)    # 正文
    image_links = Column(Text, nullable=False)    # 圖片連結
    url = Column(String(500), nullable=False)    # 文章連結
    type = Column(String(6), nullable=False)    # 文章分類
    news_tag = Column(String(40), nullable=False)    # 文章去重標記

管道檔案：

# 專案下管道檔案 pipelines.py

import json
from datetime import datetime
from hashlib import sha1

from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from scrapy_plus.core.scheduler import utf8_string

from db import Base, Model


class Pipeline(object):
    '''資料入庫前的清洗和格式化處理'''

    def process_item(self, item, spider):
        item.data['pub_date'] = datetime.strptime(item.data['pub_date'], '%Y年%m月%d日 %H:%M') # 將時間格式進行一個處理，轉換為datetime型別
        item.data['content'] = [i for i in item.data['content'] if i.strip()]    # 去掉content中的空白字元
        item.data['content'] = "\n\n".join(item.data["content"])
        item.data['image_links'] = json.dumps(item.data['image_links'])  # 列表轉換為json字串
        # 資料去重標識生成：利用標題、作者、文章連結生成唯一key
        s1 = sha1()
        s1.update(utf8_string(item.data['title']))
        s1.update(utf8_string(item.data['author']))
        s1.update(utf8_string(item.data['url']))
        item.data['news_tag'] = s1.hexdigest()    # 資料去重標識
        return item


class MysqlPipeline(object):

    def __init__(self):
        # 建立資料庫連結
        self.conn = create_engine("mysql+pymysql://root: 
[email protected]/test3?charset=utf8")
        Base.metadata.create_all(bind=self.conn)    # 建立表，如果有，就不在建立

    def _get_session(self):
        # 建立session物件
        Session = sessionmaker(bind=self.conn)
        return Session()

    def process_item(self, item, spider):
        session = self._get_session()   # 獲取session
        # 先判斷news_tag是否已經存在：如果存在，代表資料是重複的，否則才插入
        if not session.query(Model).filter_by(news_tag=item.data['news_tag']).all():
            obj = Model(**item.data)    # 建立模型類物件
            session.add(obj)    # 插入資料
            session.commit()    # 提交
        session.close() # 關閉session
        return item

專案配置檔案:

# 更改預設的配置
DEFAULT_LOG_FILENAME = '滾動新聞採集.log'    # 預設日誌檔名稱


SPIDERS = [
    "spiders.sina.SinaGunDong"
]

PIPELINES = [
    "pipelines.Pipeline",
    "pipelines.MysqlPipeline"
]

SPIDER_MIDS = [
]

DOWNLOADER_MIDS = [
]

# 控制最大併發數
MAX_ASYNC_NUMBER = 1

# 非同步模式  thread， coroutine
ASYNC_TYPE = 'thread'

'''分散式配置'''

# 執行角色
# None 代表非分散式，發起初始請求(_start_requests)， 處理請求(_execute_request_response_item)
# master代表主，只負責發起初始請求(_start_requests)，並維護請求佇列
# slave代表從，只負責處理請求(_execute_request_response_item)
# ROLE = 'master'
# ROLE = 'slave'
ROLE = None

# 最大重試次數
MAX_RETRY_TIMES = 3

# redis 佇列的配置
REDIS_QUEUE_NAME = 'request_queue'
REDIS_QUEUE_HOST = 'localhost'
REDIS_QUEUE_PORT = 6379
REDIS_QUEUE_DB = 10

# reids 集合配置
REDIS_SET_NAME = 'filter_container'
REDIS_SET_HOST = 'localhost'
REDIS_SET_PORT = 6379
REDIS_SET_DB = 10

# 利用redis進行請求備份 的配置
REDIS_BACKUP_NAME = 'request_backup'
REDIS_BACKUP_HOST = 'localhost'
REDIS_BACKUP_PORT = 6379
REDIS_BACKUP_DB = 10

爬蟲框架開發（4）--- 專案實戰——>新浪滾動新聞資訊實時資料採集

要求：儲存文章的標題、作者、釋出時間、正文、正文中的圖片連結、文章連結、文章所屬分類根據網站的實時更新(週期1分鐘)進行採集時間格式儲存為"yyyy-mm-dd HH:MM:SS" 儲存到mysql資料庫程式碼實現如下：新浪滾動的爬蟲檔案： # spid

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

secure host agen cat hand .com cati ica sts 我們打開新浪新聞，看到頁面如下，首先去爬取一級 url，圖片中藍色圓圈部分第二zh張圖片，顯示需要分頁，

文字分類（0）——scrapy爬新浪滾動新聞

這基本上就是一個從入門到差點放棄的故事。。程式碼在最下面頁面的選擇這門課需要100萬的中文語料來做文字分類，所以還要自己爬一些。 Problem 1 xPath沒有獲取到任何東西，看了下網頁的原

MapReduce框架學習（4）——倒排索引程式實戰

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版 0 倒排索引（Inverted Index）前面我們執行過WordCount例子，得到的單詞計數結果，如果輸入3篇文件，得到

開發一款開源爬蟲框架系列（二）：設計爬蟲架構

既然是構建分散式爬蟲架構，分散式說明爬蟲能在多臺機器同時執行，所以一定是多客戶端的，客戶端主要用於下載網頁，內容會放入佇列，多客戶端就有可能執行在不同的作業系統不同的語言環境，所以我們讓它暫時支援java和scala兩種依賴jvm的語言，不用區分平臺。提到客戶端也一定意味著有服務端的存在，服務端主要用於解

開發一款開源爬蟲框架系列（一）：分析nutch，scrapy的爬蟲設計

1、Scrapy Engine（Scrapy引擎） Scrapy引擎是用來控制整個系統的資料處理流程，並進行事務處理的觸發。更多的詳細內容可以看下面的資料處理流程。 2、Scheduler（排程）排程程式從Scrapy引擎接受請求並排序列入佇列，並在Scrapy引擎發出請求後返還給他們。 3、D

Android專案開發（4）-忘記密碼---驗證碼驗證頁面功能實現

任務描述根據所學知識點完成 1、實現activity_forget.xml佈局檔案 2、實現activity_forget.java程式碼檔案中的如下功能：－－2.1點選獲取驗證碼，按鈕自動開始3

Scrapy爬蟲----（二）專案實戰（上）

結合上一篇博文《Scrapy爬蟲—-（一）命令列工具》中講解的一些常用的命令我們可以很方便的建立一個Scrapy專案，這篇文章便可以開始我們的第一個Scrapy爬蟲專案：爬取一個簡單的靜態網頁中的

ONVIF協議網路攝像機（IPC）客戶端程式開發（4）：使用gSOAP生成Web Services框架程式碼

1. 專欄導讀本專欄第一篇文章「專欄開篇」列出了專欄的完整目錄，按目錄順序閱讀，有助於你的理解，專欄前面文章講過的知識點（或程式碼段），後面文章不會贅述。為了節省篇幅，突出重點，在文章中展示的示例程式碼僅僅是關鍵程式碼，你可以在「專欄開篇」中獲取完整程式碼。

Django學習筆記（20）——BBS+Blog專案開發（4）Django如何使用Bootstrap

　　本文學習如何通過Django使用Bootstrap。其實在之前好幾個Django專案中已經嘗試使用過了Bootstrap，而且都留有學習記錄，我已經大概有了一個大的框架，那麼本文就從頭再走一遍流程，其實主要細節還是Bootstrap的常用的語法使用。除了基本流程，本文基於BBS+Blog專案進行學習，主要

使用bottle進行web開發（4）：HTTPError

instead bject hat red uil tle ott class not from bottle import error @error(404) def error404(error): return ‘Nothing here, sorry‘

第八章網絡的時代—網絡開發（4）

fonts 數據共享基本 ref 讀寫 integer 面向服務簡單 time 8.5輕量級的數據交換格式—JSON8.5.1 client與server端的數據交互在Android應用開發中，尤其是網絡應用的開發，我們常常須要從網絡上獲取數據，而不只從本地數據庫或

Spring框架學習（4）spring整合hibernate

location host mage too 自動 exception 4.0 數據庫連接 find 內容源自：spring整合hibernate spring整合註解形式的hibernate 這裏和上一部分學習一樣用了模板模式，將hibernate開發流程封裝在O

Linux驅動開發（4）——驅動註冊

結構體platform_driver struct platform_driver { int (*probe)(struct platform_device *);//初始化 int (*remove)(struct platform_device

怎樣學好爬蟲的,選擇自己的程式碼編譯的IDE，爬蟲認知篇（4）

一個專業的程式猿，必須要有符合自己的IDE環境；這樣，辦公效率會提高了很多。作為一個小白來說，很有必要的。能選專業版本就不選社群版，因為什麼呢？以後啊，你是要拿這個吃飯的！！！！記

mysql資料庫優化（四）-專案實戰

在flask專案中，防止隨著時間的流逝，資料庫資料越來越多，導致介面訪問資料庫速度變慢。所以自己填充資料進行測試及 mysql優化 1.插入資料：通過指令碼，使用多程序，每100次提交資料 import multiprocessing import time from fla

Python Scrapy 爬蟲框架例項（一）

之前有介紹 scrapy 的相關知識，但是沒有介紹相關例項，在這裡做個小例，供大家參考學習。注：後續不強調python 版本，預設即為python3.x。爬取目標這裡簡單找一個圖片網站，獲取圖片的先關資訊。該網站網址： http://www.58pic.com/c/ 建立專案終端命令列執

智慧合約開發（4）—— solidity例項

1.投票這個合約比較複雜，但其中展示了很多的Solidity的特性。它實現了一個投票合約。電子投票的主要問題是如何給正確的人分配投票權，以及如何防止操縱。我們不會在這裡解決所有問題，但我們會展示如何進行委派投票，以便記票自動且完全透明。 idea 是為每個選票建立一個合約，為每個投票

以太坊ETH DAPP開發（1）：實戰開發基於truffle

一、開發環境配置 1、硬體配置 2、依賴工具版本 ~/eth_workspace$geth version Geth Version: 1.8.18-stable Architecture: amd64 Protocol Versions: [63 62] Network Id:

安卓應用開發（4）UI設計

由於Google是官方，所以本系列內容全部是掛外網，請參考者注意。如若打不開，請使用vpn。 Google官方教程 https://developer.android.com/training/basics/firstapp/creating-project 本章參考： http

爬蟲框架開發（4）--- 專案實戰——>新浪滾動新聞資訊實時資料採集

相關推薦