scrapy安裝與資料抓取

阿新 • • 發佈：2018-12-09

scrapy安裝

pip install Scrapy

如果需要vs c++的話可能是因為要用到twisted，可以到 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載，然後在本地下載的目錄下在位址列輸入cmd，然後pip install Twisted-18.7.0-cp37-cp37m-win_amd64.whl 來安裝。

No module named 'win32api'錯誤可以通過 pip install pypiwin32來解決

新建scrapy專案

在本地資料夾下，位址列cmd進入命令列，

scrapy startproject XXX    (xxx專案名稱)

資料夾會有如下幾個檔案/資料夾(xxx)

scrapy.cfg: 專案的配置檔案
xxx/: 該專案的python模組。之後您將在此加入程式碼。
xxx/items.py: 專案中的item檔案.
xxx/pipelines.py: 專案中的pipelines檔案.
xxx/settings.py: 專案的設定檔案.
xxx/spiders/: 放置spider程式碼的目錄.

然後可以將專案匯入到pycharm裡面了

爬取簡書網示例

1.在items.py裡定義item，相當於java的實體類。我一開始不知道是寫在這裡面的，自己在外面寫了一個，然後執行時候就找不到了。

這個檔案本來有示例的，為了方便檢視區別，我把整個貼進來了。JsItem是我們加上去的。

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class QuotesItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass

class JsItem(scrapy.Item):
    # 類別
    leibie = scrapy.Field()
    # 標題
    biaoti = scrapy.Field()
    # 正文
    zhengwen = scrapy.Field()
    # 字數
    zishu = scrapy.Field()
    # 閱讀量
    yuedu = scrapy.Field()
    # 評論數
    pinglun = scrapy.Field()
    # 點贊
    dianzan = scrapy.Field()
    # 最後編輯時間
    shijian = scrapy.Field()
    # 作者
    zuozhe = scrapy.Field()
    # 自定義id
    zid = scrapy.Field()
    # 原文地址
    yuanwen = scrapy.Field()
    pass

這裡的閱讀量、評論數、點贊數我後面沒獲取到，可以忽略。

2.spider資料夾下編寫spider檔案

# -*- coding:utf-8 -*-
import uuid
import scrapy
from quotes.items import JsItem

# from . import jianshuDic


class ToScrapeSpiderXPath(scrapy.Spider):
    name = 'jianshu'
    start_urls = [
        'https://www.jianshu.com/c/V2CqjW',
        # 'https://www.jianshu.com/c/fcd7a62be697',
        # 'https://www.jianshu.com/c/8c92f845cd4d', 'https://www.jianshu.com/c/yD9GAd',
        # 'https://www.jianshu.com/c/1hjajt', 'https://www.jianshu.com/c/cc7808b775b4',
        # 'https://www.jianshu.com/c/7b2be866f564', 'https://www.jianshu.com/c/5AUzod',
        # 'https://www.jianshu.com/c/742422443ad3', 'https://www.jianshu.com/c/vHz3Uc',
        # 'https://www.jianshu.com/c/70b8514fb442', 'https://www.jianshu.com/c/NEt52a',
        # 'https://www.jianshu.com/c/bd38bd199ec6', 'https://www.jianshu.com/c/accb04610749',
        # 'https://www.jianshu.com/c/dqfRwQ', 'https://www.jianshu.com/c/qqfxgN', 'https://www.jianshu.com/c/xYuZYD',
        # 'https://www.jianshu.com/c/263e0ef8c3c3', 'https://www.jianshu.com/c/6fba5273f339',
        # 'https://www.jianshu.com/c/ad41ba5abc09', 'https://www.jianshu.com/c/f6b4ca4bb891',
        # 'https://www.jianshu.com/c/e50258a6a44b', 'https://www.jianshu.com/c/Jgq3Wc', 'https://www.jianshu.com/c/LLCyGH'
    ]

    # https://blog.csdn.net/u014271114/article/details/53082676/
    # https://www.tuicool.com/articles/jyQF32V
    # https://www.jianshu.com/p/acdf9740ec79
    # 儲存到資料庫  https://www.jianshu.com/p/acdf9740ec79
    def parse(self, response):
        for d in response.xpath('//ul[@class="note-list"]/li'):
            # 獲取文章連結
            pageurl = d.xpath('a/@href').extract_first()
            if pageurl is not None:
                link = 'http://www.jianshu.com'+pageurl
                # item = self.load_item(response)
                item = JsItem()
                item['leibie']=response.xpath('//a[@class="name"]/text()').extract_first()
                item['yuanwen'] = link
                # print(item)
                yield scrapy.Request(link,meta={'item':item},callback=self.parse_item)

    def parse_item(self, response):
        item = response.meta['item']
        item['biaoti'] = response.xpath('//h1[@class="title"]/text()').extract_first()
        item['shijian']=response.xpath('//span[@class="publish-time"]/text()').extract_first()
        item['yuedu'] = response.xpath('//span[@class="views-count"]/text()').extract_first()
        item['zishu'] = response.xpath('//span[@class="wordage"]/text()').extract_first()
        item['pinglun'] = response.xpath('//span[@class="comments-count"]/text()').extract_first()
        item['dianzan'] = response.xpath('//span[@class="likes-count"]/text()').extract_first()
        item['zuozhe'] = response.xpath('//span[@class="name"]/a/text()').extract_first()
        # 自定義id  https://www.cnblogs.com/dkblog/archive/2011/10/10/2205200.html
        item['zid'] =str(uuid.uuid1()).replace('-','')
        # 正文
        zw = ''
        # zws = response.xpath('//div[@class="show-content-free"]/*').extract()
        zws = response.xpath('//div[@class="show-content-free"]/descendant::p/descendant::text()').extract()
        for i in zws:
            zw += i+'\n'
        item['zhengwen'] = zw
        return item

這裡urls我註釋了很多，量太大不好測試，只留了一個。下拉到底的話網站會載入下一頁，這個我也還沒做。註釋的網址是我參考的一些，可以多看看。注意yield和return的區別。

parse方法我們獲取到了文章詳情的連結，然後再進一步請求，就如

https://www.tuicool.com/articles/jyQF32V 裡說（比如部落格或論壇，當前頁有標題、摘要和url，詳情頁面有完整內容）這種情況一樣，我們在parse的方法最後請求request了詳情頁連結，通過meta和callback到parse_item裡去接收這個請求（第二次請求）的response，並賦值給item。（這個腦回路我整了很久，莫名其妙就可以了，可能說的比較繞。）

正文的處理還要看後期要怎麼應用這些資料，從而決定是否保留那些標籤，圖片等。

3.setting配置

這個就相當於模擬瀏覽器去請求，

加標頭檔案

#這個改為false
ROBOTSTXT_OBEY = False

DEFAULT_REQUEST_HEADERS = {
'accept': 'image/webp,*/*;q=0.8',
'accept-language': 'zh-CN,zh;q=0.8',
'referer': 'https://www.jianshu.com/',
'user-agent': 'Mozilla/5.0 (Windows NT 6.3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36',
}

4.輸出到資料庫

資料庫新建表，這個沒什麼說的了，我用的本地mysql

在pipelines.py裡設定資料庫內容，這裡參考

https://www.jianshu.com/p/acdf9740ec79

還是要注意class的命名，不然找不到了

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymysql
def dbHandle():
    conn = pymysql.connect(
        host = "localhost",
        user = "root",
        passwd = "root",
        charset = "utf8",
        use_unicode = False
    )
    return conn

class QuotesPipeline(object):
    def process_item(self, item, spider):
        return item


class jianshuDB(object):
    def process_item(self,item,spider):
        dbObject = dbHandle()
        cursor = dbObject.cursor()
        cursor.execute("USE sale")
        sql = "INSERT INTO t_jianshu(zid,leibie,biaoti,zhengwen,zishu,shijian,zuozhe,yuanwen) VALUES(%s,%s,%s,%s,%s,%s,%s,%s)"
        try:
            cursor.execute(sql,(item['zid'],item['leibie'],item['biaoti'],item['zhengwen'],item['zishu'],item['shijian'],item['zuozhe'],item['yuanwen']))
            cursor.connection.commit()
        except BaseException as e:
            print("錯誤在這裡>>>>>>>>>>>>>",e,"<<<<<<<<<<<<<錯誤在這裡")
            dbObject.rollback()
        return item

然後再setting,py裡設定一下

#輸出到資料庫
ITEM_PIPELINES = {
'quotes.pipelines.jianshuDB': 300,
}

5.差點忘了說怎麼執行，在pycharm裡

其實不用輸出到資料庫也可以執行的，cfg檔案位於專案根目錄，在跟目錄新建一個py檔案，命名隨意start.py，內容如下，執行這個檔案就可以了。

# -*- coding:utf-8 -*-
from scrapy import cmdline

cmdline.execute("scrapy crawl jianshu".split())

這裡的scrapy crawl 是固定的了，jianshu對應2中spider檔案裡的name。

還有一些問題還沒妥善地處理，在這邊先記錄下。

scrapy安裝與資料抓取

scrapy安裝 pip install Scrapy 如果需要vs c++的話可能是因為要用到twisted，可以到 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載，然後在本地下載的目錄下在位址列輸入cmd，然後pip

爬蟲原理與資料抓取-----HTTP和HTTPS的請求與響應

HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文字傳輸協議）：是一種釋出和接收 HTML頁面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）簡單講是HTTP的安全版，在HTTP下加入

爬蟲原理與資料抓取----- urllib2：GET請求和POST請求

urllib2預設只支援HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib 和 urllib2 都是接受URL請求的相關模組，但是提供了不同的功能。兩個最顯著的不同如下： urllib 僅可以接受URL，不能建立設定了headers 的Request 類例項

爬蟲—01-爬蟲原理與資料抓取

爬蟲的更多用途 12306搶票網站上的頭票簡訊轟炸關於Python網路爬蟲，我們需要學習的有： Python基礎語法學習（基礎知識）對HTML頁面的內容抓取（資料抓取）對HTML頁面的資料提取（資料提取） Scrapy框架以及scrapy-redis分散式策略（第三方框架）爬蟲(Spider

爬蟲（一）：爬蟲原理與資料抓取

1.通用爬蟲和聚焦爬蟲根據使用場景，網路爬蟲可分為通用爬蟲和聚焦爬蟲兩種. 通用爬蟲通用網路爬蟲是捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目的是將網際網路上的網頁下載到本地，形成一個網際網路內容的映象備份聚焦爬蟲

【Python入門只需20分鐘】從安裝到資料抓取、儲存原來這麼簡單

基於大眾對Python的大肆吹捧和讚賞，作為一名Java從業人員，看了Python的書籍之後，決定做一名python的腦殘粉。作為一名合格的腦殘粉（標題黨 (ノ◕ω◕)ノ），為了發展我的下線，接下來我會詳細的介紹 Python 的安裝到開發工具的簡單介紹，並編寫一個抓

scrapy的簡單應用-抓取鏈家資料

最近使用scrapy 抓取一批資料，就拿鏈家實驗一下吧環境準備 pip install scrapy 基本命令建立專案 scrapy startproject myproject 執行某個專案 scrapy crawl myspider 如何

python Scrapy框架2—簡單的資料抓取

python Scrapy框架2—資料抓取 spider中的流程 spider資料抓取在scrapy框架中，我們通過命令 scrapy crawl itcast 去執行spiders中的python指令碼。這裡的itcast 是name中的內容兩種初

python爬蟲框架Scrapy安裝與爬取示例

環境：python3.6，自帶pip # 安裝 pip install scrapy 自動下載所需元件 Installing collected packages: lxml, cssselect, six, w3lib, parsel, pyasn1, attrs, idn

關於“淘寶爆款”的資料抓取與資料分析

1、資料爬取爬取物件：淘寶“連衣裙夏”的搜尋結果。爬取物件的選擇分析我在文章中也有提及。工具：Scrapy。 2、資料分析工具：ipython & matplotlib。 3、分析內容 4、正文一、案例選擇。現在著手分析

抖音的資料抓取與資料背後的淘寶

分析的背景截至今年7月，抖音日活已突破3.2億。抖音總裁張楠預測，到2020年，國內短視訊行業的總日活使用者數，將達到10億。抖音推出多元變現方式，要讓1000萬創作者賺到錢，抖音說要讓這1000萬創作者賺到錢，其中變現的方式有很多種，我今天主要是想分享抖音背後的淘寶產業鏈，我們刷抖音視訊的過

Scrapy 安裝與使用

stock bsp 功能輸出結束文件中技術分享 easy 字典類 Scrapy的安裝：當前環境win10，python_3.6.4，64bit。在命令提示符窗口運行pip install Scrapy，出現以下結果： building ‘twisted.test

QueryList免費線上網頁採集資料抓取工具-toolfk.com

本文要推薦的[ToolFk]是一款程式設計師經常使用的線上免費測試工具箱，ToolFk 特色是專注於程式設計師日常的開發工具，不用安裝任何軟體，只要把內容貼上按一個執行按鈕,就能獲取到想要的內容結果。ToolFk還支援 BarCode條形碼線上

python 自動批量安裝apk並抓取日誌

install_auto.py #coding=utf-8 #adb install Babe.apk #aapt dump badging Babe.apk | findstr "package" import os import time def getCmdEexcuteResu

spider資料抓取（第二章）

download最完善的指令碼 import urllib2 import urlparse def download(url, user_agent="wswp", proxy=None, num_retries=2): print "DownLoading", url head

Android 使用jsoup 進行資料抓取

一，身為安卓開發人員，在沒有介面的情況下是很操蛋的。索性就抓點資料測試用了。準備工作：jsoup.jar 這裡已經是已經實現好邏輯的方法。 public class MianHuanJsoup { public static final String MH

C# NetCore使用AngleSharp爬取周公解夢資料 MySql資料庫的自動建立和頁面資料抓取

這一章詳細講解編碼過程那麼接下來就是碼程式碼了，GO 新建NetCore WebApi專案空的就可以 NuGet安裝 Install-Package AngleSharp　　或者介面安裝 using。。預設本地裝有

爬蟲[1]---頁面分析及資料抓取

頁面分析及資料抓取 anaconda + scrapy 安裝：https://blog.csdn.net/dream_dt/article/details/80187916 用 scrapy 初始化一個爬蟲：https://blog.csdn.net/dream_dt/article

爬蟲實戰-酷狗音樂資料抓取--XPath，Pyquery,Beautifulsoup資料提取對比實戰

網站： http://www.kugou.com/yy/html/rank.html 爬取目標：酷酷狗飆升榜的歌手，歌曲名字，歌曲連結等內容，存到Mysql資料庫中網頁解析：此次爬取採用三種解析方式：程式碼如下： import requests from l

scrapy安裝與配置

Scrapy安裝　　Scrapy的安裝有多種方式，它支援Python2.7版本及以上或者是Python3.3版本及以上。下面來說py3環境下，scrapy的安裝過程。　　Scrapy依賴的庫比較多，至少需要依賴庫Twisted 14.0，lxml 3.4，pyOpenSSL 0.14。在

scrapy安裝與資料抓取

scrapy安裝

新建scrapy專案

爬取簡書網示例

相關推薦