scrapy框架爬取微博之spider檔案

阿新 • • 發佈：2018-12-10

# -*- coding: utf-8 -*-
import scrapy
from scrapy.settings import default_settings
import json
from ..items import WeiboItem
import re
from w3lib.html import remove_tags

class WeiboSpider(scrapy.Spider):
    name = 'weibo'
    allowed_domains = ['weibo.cn']
    start_urls = ['https://m.weibo.cn/api/container/getIndex?containerid=231051_-_followers_-_2027356850']

    def parse(self, response):
        # print(response)
        user_str = json.loads(response.text)
        # print(user_str)
        # 每個使用者的資訊
        user_list = user_str['data']['cards']
        for i in user_list:
            # print(i['card_group'])
            name_str = i['card_group']
            for j in name_str:
                if 'user' in j:
                    user_id = j['user']['id']
                    # print(user_id)
                    user_url = 'https://m.weibo.cn/api/container/getIndex?containerid=230413%d_-_WEIBO_SECOND_PROFILE_WEIBO'
                    url = user_url % user_id
                    # print(url)
                    item = WeiboItem()
                    yield scrapy.Request(url, meta={'item': item}, callback=self.parse_list, dont_filter= False)


    def parse_list(self, response):
        user_dict = json.loads(response.text)
        for i in user_dict['data']['cards']:
            # print(i)
            if 'mblog' in i:
                # 名字
                name = i['mblog']['user']['screen_name']
                # 內容
                info = i['mblog']['text']
                # 去除標籤
                info =  remove_tags(info)
                # 時間
                time = i['mblog']['created_at']
                # print(time)
                if '前' in time:

                    time = '8-30'
                if '昨天' in time:
                    time = '8-29'
                print(time)
                # 轉發
                zhuanfa = i['mblog']['reposts_count']
                # 評論
                pinglun = i['mblog']['comments_count']
                # 點贊
                zan = i['mblog']['attitudes_count']
                item = WeiboItem()
                item['name'] = name
                item['info'] = info
                item['time'] = time
                item['zhuanfa'] = str(zhuanfa)
                item['pinglun'] = str(pinglun)
                item['zan'] = str(zan)
                user_id = i['mblog']['user']['id']
                user_url = 'https://m.weibo.cn/api/container/getIndex?containerid=231051_-_followers_-_%d'
                url = user_url % user_id
                yield item

                for i in user_dict['data']['cards']:
                    # print(i)
                    if 'mblog' in i:
                        user_id = i['mblog']['user']['id']
                        user_url = 'https://m.weibo.cn/api/container/getIndex?containerid=231051_-_followers_-_%d'
                        url = user_url % user_id
                        yield scrapy.Request(url, callback=self.parse, dont_filter=False)

scrapy框架爬取微博之spider檔案

# -*- coding: utf-8 -*- import scrapy from scrapy.settings import default_settings import json from ..items import WeiboItem import

python3爬蟲之使用Scrapy框架爬取性感女神美女照片

使用Scrapy框架爬取性感女神美女照片其實很簡單哦，只需要5分鐘，爬取上萬張性感女神照片。先給大家看一下成果吧：激不激動，興不興奮，那就快來學一下吧：開始專案前需要安裝python3和Scrapy，不會的自行百度，這裡就不具體介紹了接下來是程式碼

python3爬蟲之使用Scrapy框架爬取英雄聯盟高清桌面桌布

使用Scrapy爬蟲抓取英雄聯盟高清桌面桌布開始專案前需要安裝python3和Scrapy，不會的自行百度，這裡就不具體介紹了首先，建立專案 scrapy startproject loldesk 生成專案的目錄結構首先需要定義抓取元素，在item.p

python 爬取微博信息

微博爬蟲 python cookie 新浪微博爬取的話需要設計到登錄，這裏我沒有模擬登錄，而是使用cookie進行爬取。獲取cookie：代碼：#-*-coding:utf8-*- from bs4 import BeautifulSoup import requests impor

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

用scrapy框架爬取映客直播用戶頭像

xpath print main back int open for pri nbsp 1. 創建項目 scrapy startproject yingke cd yingke 2. 創建爬蟲 scrapy genspider live 3. 分析http://www.i

python爬取微博圖片數據存到Mysql中遇到的各種坑python Mysql存儲圖片

字符轉義 process 程序 zha 有一個 utf-8 get ctime python3 本人長期出售超大量微博數據，並提供特定微博數據打包，Message to [email protected] 前言由於硬件等各種原因需要把大概

爬蟲實例(一)——爬取微博動態

對象 sts search script offic 開發者 sea all 不起作用首語：開始準備認真學習爬蟲了，先從基礎的開始學起，比如先爬取微博的個人動態。兩個難點：獲取動態加載的內容和翻頁這兩項操作。對象：何炅的個人需要的URL：　　首頁url：https

python小白也可以分分鐘爬取微博數據，並生成有個性的詞雲，你get到了嗎？

python 爬蟲 web開發編程Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且容易理解的標準庫，能夠輕松完成很多常見的任務。它的語法非常簡捷和清晰，與其它大多

使用scrapy框架爬取蜂鳥論壇的攝影圖片並下載到本地

utf 賦值 col 異常處理創建文件夾 clas watermark follow ret 目標網站：http://bbs.fengniao.com/使用框架：scrapy 因為有很多模塊的方法都還不是很熟悉，所有本次爬蟲有很多代碼都用得比較笨，希望各位讀者能給處意見

scrapy框架爬取豆瓣讀書（1）

tin rap 豆瓣 pipe 網頁 xpath from lin tor 1.scrapy框架 Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化

通過微博搜尋爬取微博

通過關鍵字搜尋微博，只爬取原創的微博，轉發的微博可以通過原文評論的地址找到原微博。微博預設顯示最多頁數是100頁也就是max_page 其是通過表單的形式提交，來進行翻頁。找到原微博地址後可以通過xpath解析出微博的使用者，id，轉發數，點贊數，評論數，發微博的時間以及微博內容，提取出來存到mon

Python：scrapy框架爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案 xiaohuawang/: 該專案的python模組。之後您將在此加入程

python爬取微博配圖

平時沒事就喜歡刷刷微博，追追星，關注關注娛樂圈動態順便看看老婆們的最新動態，每次看到老婆們發的新圖就很幸福，於是就想寫個爬蟲把老婆們的微博配圖給爬下來，一般爬到的不是自拍就是表情包，還是收穫滿滿的。因為最近學到了一句話:不要重複造輪子。所以第一當然是去看一看有沒有別的寫出來的成品，然

爬取微博

問題一：如何對網址中的中文字元解碼和編碼 from urllib.request import quote,unquote search_content="機場" search_content_utf8=quote(search_content,encoding="utf-8"); pr

scrapy框架爬取虎撲論壇球隊新聞

用python爬蟲scrapy框架爬取虎撲論壇的30支球隊新聞 Scrapy 框架 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及

Python 非同步爬取微博資料練習

PHP交流群:294088839, Python交流群:652376983 # js 資料爬取 from urllib.parse import urlencode import requests base_url ='https://m.weibo.cn/api/container/getI

爬蟲例項利用Ajax爬取微博資料

隨著代理IP技術的普及，爬蟲的使用也變得簡單起來，許多企業和個人都開始用爬蟲技術來抓取資料。那麼今天就來分享一個爬蟲例項，幫助你們更好的理解爬蟲。下面我們用程式模擬Ajax請求，將我的前10頁微博全部爬取下來。首先，定義一個方法來獲取每次請求的結果。在請求時，page是一個可變引數，所以我們將它作為方法的引數

爬蟲實例利用Ajax爬取微博數據

alt b2b 每次 png 微博可變實例我們 images 隨著代理IP技術的普及，爬蟲的使用也變得簡單起來，許多企業和個人都開始用爬蟲技術來抓取數據。那麽今天就來分享一個爬蟲實例，幫助你們更好的理解爬蟲。下面我們用程序模擬Ajax請求，將我的前10頁微博全部爬取下

使用scrapy框架爬取貓眼電影全部的頁碼並寫入資料庫

使用scrapy框架爬取貓眼電影爬取全部的頁數 import scrapy,re from jobmaoyan.items import JobmaoyanItem class MaoyanSpider(scrapy.Spider): name = '

scrapy框架爬取微博之spider檔案

相關推薦