scrapy實戰爬取cl社區評論數超過設定值的鏈接

阿新 • • 發佈：2018-12-31

chrom lee connect ngs charset format lines back nes

1、創建scrapy項目

scrapy startproject cl

2、前戲

　　a、註釋爬蟲文件中的allowed_domains

　　b、settings.py第22行，ROBOTSTXT_OBEY = True改為ROBOTSTXT_OBEY = False

　　c、settings.py第19行，改為USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36‘

　　d、開啟管道：67-69行，

　　ITEM_PIPELINES = {
　　　　‘mytestscrapy.pipelines.MytestscrapyPipeline‘: 300,
　　　　}

3、cl.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Selector
from mytestscrapy.items import MytestscrapyItem
import time
import random

class TestCLSpider(scrapy.Spider):
    name = ‘cl‘
    # allowed_domains = [‘www.baidu.com‘]
    start_urls = [‘https://cc.yyss.icu/thread0806.php?fid=2&search=&page=1 
‘]
    print("第1頁開始")
    url = ‘https://cc.yyss.icu/thread0806.php?fid=2&search=&page=%d‘
    pageNum = 1

    def parse(self, response):
        # response_text = response.text
        if self.pageNum == 1:
            tr_ele=Selector(response=response).xpath(‘//table[@id="ajaxtable"]/tbody[@style="table-layout:fixed;"]/tr[@class="tr3 t_one tac"] 
‘)[2:]
        else:
            tr_ele=Selector(response=response).xpath(‘//table[@id="ajaxtable"]/tbody[@style="table-layout:fixed;"]/tr[@class="tr3 t_one tac"]‘)

        for tr in tr_ele:
            count = tr.xpath(‘./td[4]/text()‘).extract_first()
            #過濾評論數小於4的
            if int(count) < 4:
                continue
            text = tr.xpath(‘./td[2]//a/text()‘).extract_first()
            url = ‘https://cc.yyss.icu/‘+tr.xpath(‘./td[2]//a/@href‘).extract_first()
            item = MytestscrapyItem()
            item[‘urlname‘] = text
            item[‘urladdr‘] = url
            item[‘commentsNum‘] = count
            yield item
        #爬取1-30頁數據
        if self.pageNum < 30:
            #每爬取一頁數據，隨機等待2-4秒
            time.sleep(random.randint(2,5))
            self.pageNum += 1
            new_url = format(self.url % self.pageNum)
            print("第%s頁開始"%self.pageNum)
            yield scrapy.Request(url=new_url,callback=self.parse)

4.items.py

import scrapy


class MytestscrapyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    urlname = scrapy.Field()
    urladdr = scrapy.Field()
    commentsNum = scrapy.Field()

5、pipelines.py(數據存入mysql數據庫，mysql數據庫cl_table表的字段urlname, urladdr, commentsNum)

import pymysql


class MytestscrapyPipeline(object):
    connect = ‘‘
    cursor = ‘‘
    def open_spider(self, spider):
        self.connect = pymysql.Connect(
            host=‘localhost‘,
            port=3306,
            user=‘root‘,
            passwd=‘123456‘,
            db=‘cl‘,
            charset=‘utf8‘
        )
    def process_item(self, item, spider):
        urlname = item[‘urlname‘]
        urladdr = item[‘urladdr‘]
        commentsNum = item[‘commentsNum‘]
        self.cursor = self.connect.cursor()
        sql = "INSERT INTO cl_table (urlname, urladdr, commentsNum) VALUES (‘%s‘,‘%s‘,‘%s‘ )"
        data = (urlname, urladdr, commentsNum)

        try:
            self.cursor.execute(sql % data)
        except Exception as e:
            self.connect.rollback()  # 事務回滾
            print(‘事務處理失敗‘, e)
        else:
            self.connect.commit()  # 事務提交
            print(‘事務處理成功‘, self.cursor.rowcount)
        return item

    def close_spider(self,spider):
        self.cursor.close()
        self.connect.close()

scrapy實戰爬取cl社區評論數超過設定值的鏈接

chrom lee connect ngs charset format lines back nes 1、創建scrapy項目 scrapy startproject cl 2、前戲　　a、註釋爬蟲文件中的allowed_domains 　　b、settings.py第

scrapy實戰爬取cl社群評論數超過設定值的連結

1、建立scrapy專案 scrapy startproject cl 2、前戲　　a、註釋爬蟲檔案中的allowed_domains 　　b、settings.py第22行，ROBOTSTXT_OBEY = True改為ROBOTSTXT_OBEY = False 　　c、settings.py

爬取知名社區技術文章_分析_1

邏輯結構 project connect primary python 邊界值分析顯示 result article 軟件運行環境是什麽？ python 3.50 -- 解釋器

爬取知名社區技術文章_article_3

get nal 下載解析 _id pid Coding spider mil 爬蟲主邏輯處理，獲取字段，獲取主url和子url #!/usr/bin/python3 # -*- coding: utf-8 -*- import scrapy from scrapy.h

爬取知名社區技術文章_setting_5

協議 project lan ati rem pip consul file ecs # -*- coding: utf-8 -*- # Scrapy settings for JobBole project # # For simplicity, this file

教程+資源,python scrapy實戰爬取知乎最性感妹子的爆照合集(12G)!

一.出發點：之前在知乎看到一位大牛（二胖）寫的一篇文章：python爬取知乎最受歡迎的妹子（大概題目是這個，具體記不清了），但是這位二胖哥沒有給出原始碼，而我也沒用過python,正好順便學一學,所以我決定自己動手搞一搞. 爬取已經完成,文末有 python的原始碼和妹子圖片的百度雲地址二.準備：

scrapy實戰爬取電影天堂相關資訊

# encoding: utf-8 import scrapy from scrapy import Selector from scrapy import Request from pacong.items import MovieNews, Mov

Python網絡爬蟲Scrapy+MongoDB +Redis實戰爬取騰訊視頻動態評論教學視頻

並發數 www. 深入圖例編程 ppt 研發 read 網絡爬蟲課程簡介學習Python爬蟲開發數據采集程序啦！網絡編程，數據采集、提取、存儲，陷阱處理……一站式全精通！！！目標人群掌握Python編程語言基礎，有誌從事網絡爬蟲開發及數據采集程序開發的人群。學習目

Python爬蟲【實戰篇】scrapy 框架爬取某招聘網存入mongodb

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構 items.py title = scrapy.Field()

scrapy框架爬取京東商城商品的評論

一、Scrapy介紹 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。所謂網路爬蟲，就是一個在網上到處或定向抓取資料的程式，當然，這種說法不夠專業，更專業的描述就是，抓取特定網站網頁的H

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

文章 odin data 模塊 webapi 頭信息 hone 微信 android 第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號封裝模塊 #!/usr/bin/env python # -*- coding: utf-8 -*- impo

用scrapy框架爬取映客直播用戶頭像

xpath print main back int open for pri nbsp 1. 創建項目 scrapy startproject yingke cd yingke 2. 創建爬蟲 scrapy genspider live 3. 分析http://www.i

我的第一個Scrapy 程序 - 爬取當當網信息

ref http ide ces passwd lds url ext != 前面已經安裝了Scrapy，下面來實現第一個測試程序。概述 Scrapy是一個爬蟲框架，他的基本流程如下所示（下面截圖來自互聯網）簡單的說，我們需要寫一個item文件，定義返回的數據結構；寫

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

scrapy+selenium 爬取淘寶

SM end nts items 參數 lang 組元 accept .get # -*- coding: utf-8 -*- import scrapy from scrapy import Request from urllib.parse import quote

scrapy案例:爬取翼蜂網絡新聞列表和詳情頁面

model rap name lB htm nod meta http AR # -*- coding: utf-8 -*- import scrapy from Demo.items import DemoItem class AbcSpider(scrapy.Sp

cl社區caoliu最新地址1024xp核工廠

網站大致就是鼠標指向cl地址一地址二 →→ https://www.2022cma.com對應的語言圖標時，該圖標翻轉放大變色，點擊後會跳到相應詞條的百度百科，相當於是一個導航欄。有一個點擊音樂播放器跳到我寫的另一個音樂播放器網頁的鏈接還沒寫好。代碼先貼在這，等寫好了之後再來修改。 [css] view

Python 爬取騰訊電視劇評論

視頻評論爬取騰訊定向爬取騰訊電視劇評論本例思路：打開評論頁面，通過fiddler提取加載評論頁面的網址，對比分析url，構造內容和用戶pattern，然後爬取輸出。1，打開電視劇如果愛頁面https://v.qq.com/x/cover/zjfjxmtdzhowjoz.html，找到下圖影評位置，

獲取數據——爬取某微博評論

t_sql 希望 udf mysq reat root utf lee execute 微博評論API 想要爬取某一條微博的評論，首先會想到微博官方提供的API，但是不巧的是，官方提供的api能夠獲取的評論數量有限，不足以分析，那怎麽辦呢？我們想到了網頁端，手機端的微博

scrapy+selenium　爬取淘寶商城商品數據存入到mongo中

mage 通過 -c style settings 一個 arc lec less １．配置信息 # 設置mongo參數 MONGO_URI = ‘localhost‘ MONGO_DB = ‘taobao‘ #　設置搜索關鍵字 KEYWORDS=[‘小米手機‘,‘華為

scrapy實戰爬取cl社區評論數超過設定值的鏈接

相關推薦