Python練習 scrapy 爬取汽車之家文章

阿新 • • 發佈：2019-02-12

autohome.py #spider檔案

# -*- coding: utf-8 -*-
import scrapy
from Autohome.items import AutohomeItem

class AutohomeSpider(scrapy.Spider):
    name = 'autohome'
    allowed_domains = ['https://www.autohome.com.cn/all/']
    start_urls = ['https://www.autohome.com.cn/all/']

    def parse(self, response):
#返回該表示式對應的所有selector list列表
        tit_list = response.xpath("//div[@class='article-wrapper']/ul/li/a")
        for tit in tit_list:
            item = AutohomeItem()
            #extract（）序列化為unicode字串
            title = tit.xpath("./h3").extract()
            url = tit.xpath("./@href").extract()
            jianjie = tit.xpath("./p").extract()

            item['url'] = url[0]
            item['jianjie'] = jianjie[0]
            item['title'] = title[0]
            #返回提取到的每個item資料，傳給管道處理，同時還會回來繼續處理下一個資料
            yield item


#網址 //div[@class='article-wrapper']/ul/li/a/@href
#標題 //div[@class='article-wrapper']/ul/li/a/h3
#簡介 //div[@class='article-wrapper']/ul/li/a/p

Pipelines.py 管道檔案

import json

class AutohomePipeline(object):
    def __init__(self):
#建立檔案,以二進位制格式存入
        self.f = open("autohomet.json","wb")
#獲取到每一個item，
    def process_item(self, item, spider):
#json.dumps無法直接轉item，所以需要把item強制轉換成dict，即可操作。
#ensure_ascii，json.jump預設為ascii碼，所以需要改為false來顯示中文
        content = json.dumps(dict(item),ensure_ascii = False) + ",\n"
#把content以utf-8的形式寫入
        self.f.write(content.encode("utf-8"))
#把item返回給引擎，告訴引擎可以處理下一個item資料了。所有item資料處理完畢，
# 執行下面關閉方法
        return item

    def close_spider(self,spider):
        self.f.close()

items.py

import scrapy


class AutohomeItem(scrapy.Item):
    # define the fields for your item here like:
    # 標題
    title = scrapy.Field()
    # 網址
    url = scrapy.Field()
    # 簡介
    jianjie = scrapy.Field()

Python練習 scrapy 爬取汽車之家文章

autohome.py #spider檔案 # -*- coding: utf-8 -*- import scrapy from Autohome.items import AutohomeItem class AutohomeSpider(scrapy.Spider)

python網路爬蟲爬取汽車之家的最新資訊和照片

實現的功能是爬取汽車之家的最新資訊的連結題目和文章中的照片爬蟲需要用到我們使用了 requests 做網路請求，拿到網頁資料再用 BeautifulSoup 進行解析首先先檢查是否安裝了pip，如果已經安裝了pip,直接pip install requests,pip uninstal

python爬蟲實戰爬取汽車之家上車型價格

相關庫 import pymysql import pymysql.cursors from bs4 import BeautifulSoup import requests import random

Python3[爬蟲實戰] scrapy爬取汽車之家全站連結存json檔案

昨晚晚上一不小心學習了崔慶才，崔大神的部落格，試著嘗試一下爬取一個網站的全部內容，福利吧網站現在已經找不到了，然後一不小心逛到了汽車之家 (http://www.autohome.com.cn/beijing/) 很喜歡這個網站，女人都喜歡車，更何況男人呢。（

python入門-----爬取汽車之家新聞,---自動登錄抽屜並點贊,

ike color div標簽 pla spa art com col 3-9 爬取汽車之家新聞,代碼如下 import requests res=requests.get(url=‘https://www.autohome.com.cn/news/‘) #向汽車直接

python爬蟲——爬取汽車之家新聞

按F12審查一下元素：找到了對應的資訊。而且發現要爬取的圖片都在id=auto-channel-lazyload-article的div標籤下的li標籤裡。 li標籤下的a標籤就是新聞的url；image標籤，src就是獲取圖片的url；請求圖片地

爬取汽車之家

ref article brush att split channel odin lazy com import requests from bs4 import BeautifulSoup response = requests.get(‘https://www.aut

python3 爬取汽車之家所有車型操作步驟

題記: 　　網際網路上關於使用python3去爬取汽車之家的汽車資料（主要是汽車基本引數，配置引數，顏色引數，內飾引數）的教程已經非常多了，但大體的方案分兩種：　　1.解析出汽車之家某個車型的網頁，然後正則表示式匹配出混淆後的資料物件與混淆後的js，並對混淆後的js使用pyv8進行解析返回

爬取汽車之家北京二手車資訊

爬取汽車之家北京二手車資訊經測試，該網站：https://www.che168.com/beijing/list/ 反爬機制較低，僅需要偽造請求頭設定爬取速率，但是100頁之後需要登入，登入之後再爬要慎重，一不小心就會永久封號。爬取的資料以各種型別存放，下面展示儲存到mysql資料

WebMagic爬蟲入門教程（三）爬取汽車之家的例項-品牌車系車型結構等

本文使用WebMagic爬取汽車之家的品牌車系車型結構價格能源產地國別等；java程式碼備註，只是根據url變化爬取的，沒有使用爬取script頁面具體的資料，也有反爬機制，知識簡單爬取html標籤爬取的網頁：需要配置pom.xml <!-

使用python抓取汽車之家車型資料

import requests import pymysql HOSTNAME = '127.0.0.1' USERNAME = 'root' PASSWORD = 'zyndev' DATABASE = 'zyndev_new' brand = 'ht

python+scrapy 爬取成都鏈家二手房和成交資訊

爬蟲設計方案爬取目標成都鏈家的二手房和成交資料。由於web版看不到最新的成交金額資料，因此需要用手機版的資料。成交資料應該去重，可以做成每天增量爬取。需要做成每天爬取一次，定時執行參考文章技術方案使用Scrapy框架，

Python爬蟲爬取BT之家找電影資源

一、寫在前面最近看新聞說聖城家園（SCG）倒了，之前BT天堂倒了，暴風影音也不行了，可以說看個電影越來越費力，國內大廠如企鵝和愛奇藝最近也出現一些么蛾子，雖然目前版權意識雖然越來越強，但是很多資源在這些主流視訊網站上面依然沒有，我平時看電影又習慣下載下來再看，所以每次看電影找資源就很麻煩，花了點時間，於

Python爬蟲實戰詳解：爬取圖片之家

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理如何使用python去實現一個爬蟲？模擬瀏覽器請求並獲取網站資料在原始資料中提取我們想要的資料資料篩選將篩選完成的資料做儲存完成一個爬蟲需要哪些工具 Python3.6 p

Python練習四:爬取圖片

貼吧地址 https://tieba.baidu.com/p/5272413637?red_tag=0606091703 程式如下import urllib.requestimport redef open_url(url): 　　req = urllib.request.Request(

python使用scrapy爬取qq音樂（二）

聽一首還不錯的歌曲 1.有點累？那麼好，來歇息一下，聽一首歌。突然看到tf男孩的歌曲，你說啥？e_e,這個不要緊，來，點進去聽一下，（事實是我聽了一下下就換了首自己喜歡的歌）。就是這麼任性。點選，播放。就這麼神奇，你一點選，它就播放了，熟悉js

python爬蟲--scrapy爬取騰訊招聘網站

背景：虛擬機器Ubuntu16.04，爬取https://hr.tencent.com/招聘資訊！第一步：新建專案：scrapy startproject tencent第二步：編寫items檔案 1 # -*- coding: utf-8 -*- 2 3 # D

Python練習【爬取銀行網站信息】

pre == sts color mysql 遊標 pattern 保存 ride 功能實現爬取所有銀行的銀行名稱和官網地址(如果沒有官網就忽略)，並寫入數據庫；銀行鏈接: http://www.cbrc.gov.cn/chinese/jrjg/index.html

java 開發用到網路爬蟲，抓取汽車之家網站全部資料經歷

經歷了兩個禮拜的折騰，某某知名網站的資料終於到手了。犯罪沒被發現這種心情感覺很爽。說一下我的犯罪經歷，之前公司總是抓取某某網站資料，可能是被發現了。某某網站改變了策略。通過各種技術終止了我們的行為，導致我們的抓取功能報錯，逐步跟蹤，發現我們之前是在人家的網站，通過Webh

Scrapy爬取知名技術網站文章並儲存到MySQL資料庫

之前的幾篇文章都是在講如何把資料爬下來，今天記錄一下把資料爬下來並儲存到MySQL資料庫。文章中有講同步和非同步兩種方法。所有文章文章的地址：http://blog.jobbole.com/all-posts/ 對所有文章

Python練習 scrapy 爬取汽車之家文章

相關推薦