1. 程式人生 > >利用scrapy框架爬取網易新聞排行榜

利用scrapy框架爬取網易新聞排行榜

wyxw.py中程式碼

# -*- coding: utf-8 -*-
import scrapy
from ..items import WyxwItem

class WyxwSpider(scrapy.Spider):
    name = 'wyxw'
    allowed_domains = ['news.163.com']
    start_urls = ['http://news.163.com/special/0001386F/rank_whole.html']

    def parse(self, response):


        item = WyxwItem()
        xq_title = response.xpath('//table/tr/td[1]/a/text()').extract()
        item['title'] = xq_title

        print(xq_title)
        xq_url = response.xpath('//table/tr/td[1]/a/@href').extract()
        item['xq_url'] = xq_url
        print(xq_url)
        xq_djl = response.xpath('//table/tr/td[2]/text()').extract()
        print(xq_djl)
        item['dj'] = xq_djl
        for i in range(0, len(xq_title)):

            item['title'] = xq_title[i]
            item['xq_url'] = xq_url[i]
            item['dj'] = xq_djl[i]
            yield item


items.py檔案程式碼

class WyxwItem(scrapy.Item):
    title = scrapy.Field()
    xq_url = scrapy.Field()
    dj = scrapy.Field()
    def get_insert_sql(self):
        sql = 'insert into wyxw_test(title,xq_url,dj) values (%s,%s,%s)'
        data = (self['title'],self['xq_url'],self['dj'])
        return (sql,data)

pipelines.py程式碼

class MysqlProjectPipeline(object):
    def process_item(self, item, spider):
        (insert_sql,data) = item.get_insert_sql()
        myhelper = MysqlHelper()
        myhelper.execute_modify_sql(insert_sql,data)

其他檔案配置看scrapy框架基本設定

相關推薦

利用scrapy框架新聞排行榜

wyxw.py中程式碼 # -*- coding: utf-8 -*- import scrapy from ..items import WyxwItem class WyxwSpider(scrapy.Spider): name = 'wyxw' al

利用scrapy框架百度閱讀書籍資訊

專案需求:爬取百度閱讀的榜單圖書的資訊,如:書名、評分、作者、出版方、標籤、價格,生成一個csv檔案。 專案的大致流程:建立spider工程專案,建立spider爬蟲,定義相關欄位,分析頁面資訊...... 由於scpapy框架,之間存在相互聯絡,針對此專案不同的檔案

利用python廣西快樂十分源碼出租雲歌手top50歌曲歌詞

代碼提示 安裝 json 如果 https enc utf _id ebp python廣西快樂十分源碼出租 dsluntan.com Q:3393756370 VX:17061863513近年來,發展迅速,成為了最炙手可熱的語言。 那麽如何來進行網易雲歌手top50的歌

Python:scrapy框架校花男神圖片儲存到本地

爬蟲四部曲,本人按自己的步驟來寫,可能有很多漏洞,望各位大神指點指點   1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案 xiaohuawang/: 該專案的python模組。之後您將在此加入程

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一:雲歌單資訊,並存入mysql中

最近,需要使用Java進行爬蟲編寫,就去學了Java的爬蟲。因為之前學習了Scrapy框架,所以學Java的爬蟲使用了WebMagic框架,這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件:  這個框架是國人開發的,所以說明文件都是中文,簡單易懂。

python爬蟲(16)使用scrapy框架頂點小說

本文以scrapy 框架來爬取整個頂點小說網的小說 1.scrapy的安裝 這個安裝教程,網上有很多的例子,這裡就不在贅述了 2.關於scrapy scrapy框架 是一個非常好的東西,能夠實現非同步爬取,節省時間,其實本文純粹的按照之前的思維來做, 也不是不可以,但是感

文字分類(二):scrapy新聞

文字分類的第一項應該就是獲取文字了吧。 在木有弄懂scrapy的情況下寫的,純應用,或許後續會補上scrapy的原理。 首先說一下我的環境:ubuntu14.10 scrapy安裝指南(肯定官網的最權威了):[傳送門](http://scrapy-chs.rea

爬蟲基本介紹 && python3 爬蟲新聞排行榜

爬蟲基本介紹 1. 什麼是爬蟲? 爬蟲是請求⽹網站並提取資料的⾃自動化程式 2. 爬蟲的基本流程 發起請求 通過HTTP庫向目標站點發起請求,即傳送一個Request,請求可以包含額外的headers等資訊,等待伺服器器響應。 解析內容

雲聽歌排行榜歌單制作雲詞

proc ges ase params 網頁 web api .post 想要 最近又到了一年一度的年底總結了,網易雲音樂如此退出了年度歌單,又一次被刷朋友圈了。作為程序員,就好奇的想驗證下結論準不準,隨便回顧下爬蟲的操作。首先,打開網頁版網易雲音樂,登錄成功後,進入自己或

Python爬蟲【實戰篇】scrapy 框架某招聘存入mongodb

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構 items.py title = scrapy.Field()

Scrapy雲音樂和評論(一、思路分析)

目錄: 前提: scrapy這個框架很多人用過,網上教程也很多,但大多就是爬爬小說這種比較簡單且有規律的,網易雲音樂也有很多人寫過,也有API,不過大多是爬取了熱門歌曲,或是從歌單下手,但是考慮到歌單會有很多重複的。當然,從歌手頁的話,如果

利用python雲歌手top50歌曲歌詞

python近年來,發展迅速,成為了最炙手可熱的語言。 那麼如何來進行網易雲歌手top50的歌曲歌詞爬取呢 1. 首先進行網易雲並進行喜歡的歌手搜尋如下: 2. 搞清楚了連線的問題之後,就要進行BeautifulSoup對網易進行抓取 核心程式碼如下: #e

python雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url:http://music.163.com/#/discover/playlist/ 依次第二頁:http://music.1

熱評做成雲熱門截圖形式(給自己看的很亂有待更改)

lac post 更改 with con requests true ext2 .post 1 import requests,json,os,datetime,math,re 2 from PIL import Image,ImageDraw,ImageFont

熱評做成雲熱門截圖形式(給自己看的很亂有待更改+)

json roman reply 熱門 req fan sta strftime ram # coding: utf-8 import requests, json, os, time, math, re from PIL import Image, Image

我用Python雲音樂上的Hip-hop歌單,分析rapper如何押韻

line gone 謠言 大致 -i 態度 大眾 其中 當前 緣起 《中國有嘻哈》這個節目在這個夏天吸引了無數的目光,也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目,它對我的影響也蠻大。這個夏天,我基本都在杭州度過,在上下班的taxi上,我幾乎都在刷這個節目,最後

scrapy框架映客直播用戶頭像

xpath print main back int open for pri nbsp 1. 創建項目 scrapy startproject yingke cd yingke 2. 創建爬蟲 scrapy genspider live 3. 分析http://www.i

雲音樂評論並使用詞雲展示

referer top readlines target ner ads 詞雲 pos 參考 最近聽到一首很喜歡的歌,許薇的《我以為》,評論也很有趣,遂有想爬取該歌曲下的所有評論並用詞雲工具展示。 我們使用chrome開發者工具,發現歌曲的評論都隱藏在以 R_S

雲音樂(包括歌詞和評論)

輸入 random 字節 sim main dal 需要 ssi wow # http://music.163.com/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&off

如何用Python絡爬蟲雲音樂歌曲

今天 http 分享圖片 分享 圖片 分分鐘 參考 down 技術 今天小編帶大家一起來利用Python爬取網易雲音樂,分分鐘將網站上的音樂down到本地。 跟著小編運行過代碼的筒子們將網易雲歌詞抓取下來已經不再話下了,在抓取歌詞的時候在函數中傳入了歌手ID和歌曲名兩個參數