python3 [爬蟲入門實戰]爬蟲之scrapy爬取中國醫學人才網

阿新 • • 發佈：2019-02-04

自己第一次試著用scrapy進行爬取網頁，總共爬下9240條資料，也就兩分鐘不到，400多頁吧。用的比較簡單，但是爬取成功後感覺成就感滿滿的。

來張爬取結果圖
這裡寫圖片描述

爬取欄位：
“hospitalName”: “hospitalDesc”: “hospitalSize”:”hospitalAddress”:

1爬取欄位

這裡爬取的內容上面都有標註，只不過，爬取下來沒有儲存連結（稍微有點小遺憾，白天干兼職很累的，上家公司現在還沒發工資。。）

（1）先上爬取的資訊內容：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items 

#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ChinadoctornetItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

    # 爬取中國醫學人才網的條目(共5個條目)
    # 醫院名稱
    hospitalName = scrapy.Field()
    # 醫院規模
    hospitalSize = scrapy.Field 
()
    # 醫院所在地
    hospitalAddress = scrapy.Field()
    # 醫院科目
    hospitalDesc = scrapy.Field()
    # pass

（2）接著是spider裡面的內容

這裡用的是scrapy裡面的xpath路徑，具體xpath自己可以用一個chrom helper來進行測試，

我提取的是整個醫院的item，//div[@class='newsjob']/ul/li

然後下面是提取item裡面的內容，在當前路徑下用 .

自己試著除錯著就能搞出來的

直接貼程式碼：

# encoding=utf8
import 
 scrapy
from chinadoctornet.items import ChinadoctornetItem


class ChinaDocNet(scrapy.Spider):
    # 啟動爬蟲的名稱
    name = 'docNet'
    # 爬取域名的範圍
    allowed_domains = ['yixuezp.com']
    # 爬蟲第一個url地址
    start_urls = ['http://www.yixuezp.com/zhaopin?page={}'.format(n) for n in range(0, 464)]  # 463

    def parse(self, response):
        # 醫院name
        node_list = response.xpath("//div[@class='newsjob']/ul/li")
        items = []
        for node in node_list:
            item = ChinadoctornetItem()
            hospitalName = node.xpath("./a/text()").extract()
            hospitalSize = node.xpath("./span[1]/text()").extract()
            hospitalAddress = node.xpath("./span[2]/text()").extract()
            hospitalDesc = node.xpath("./p/a/text()").extract()

            item['hospitalName'] = hospitalName
            item['hospitalSize'] = hospitalSize
            item['hospitalAddress'] = hospitalAddress
            item['hospitalDesc'] = hospitalDesc
            items.append(item)
            # return items # 如果直接return的話，一頁資料只會返回一條資料
            yield item #用yield 的話，可以交給下載器，繼續執行下一步操作。

（3）以json格式進行下載資料

程式碼：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json

class ChinadoctornetPipeline(object):
    def process_item(self, item, spider):
        return item


class JsonWriterPipeline(object):
    def __init__(self):
        self.file = open('中國醫學人才網招聘最新招聘專欄2.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item

    def spider_closed(self, spider):
        self.file.close()

最後就是這樣子了，下載器這一塊程式碼是直接複製上一份的，不過，程式碼都一樣，多記想想為什麼，就通了。

settings裡面的程式碼沒有動，只是吧ROBOTSTXT_OBEY設定為False了。

下次再進行幾個網站的爬取，早點找工作啊，還要找些典型的網站進行練手。

這個是為：我是呆子爬取的資料

python3 [爬蟲入門實戰]爬蟲之scrapy爬取中國醫學人才網

自己第一次試著用scrapy進行爬取網頁，總共爬下9240條資料，也就兩分鐘不到，400多頁吧。用的比較簡單，但是爬取成功後感覺成就感滿滿的。來張爬取結果圖爬取欄位： “hospitalName”: “hospitalDesc”

python3 [爬蟲入門實戰]爬蟲之scrapy安裝與配置教程

不得不說，自己經歷過的，才是真的經歷過，有很多網上的教程並不是很好，都是一把辛酸淚啊。網上很多教程都是python2.7的，少有python3的教程，找起資料來還是挺難的。搞了算是蠻久的，一個上午加上半個晚上，不過最終還是搞出來了總結一下：方法對了，安裝的方法還是蠻簡單的前人的經驗，別一開始就上

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

user 說過 -c convert 方式 bsp 配置文件 https 爬蟲爬取的思路首先我們應該找到一個賬號，這個賬號被關註的人和關註的人都相對比較多的，就是下圖中金字塔頂端的人，然後通過爬取這個賬號的信息後，再爬取他關註的人和被關註的人的賬號信息，然後爬取被關註人

python3 [爬蟲入門實戰]爬蟲之mongoDB資料庫的安裝配置與視覺化

從安裝過程到視覺化工具可檢視資料資訊，歷時兩天，昨天坐了一天的火車，今天早上才到的青島–> 來放鬆心情。前天說是要學習如何使用mongoDB的連結與安裝。到今天過去了將一天，不過還是在函兮的嘮叨下慢慢的安裝好了，確實來之不易，一臉懵逼

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎使用者資訊(上)

本文出自“python修行路”部落格，http://www.cnblogs.com/zhaof/p/7215617.html爬取的思路首先我們應該找到一個賬號，這個賬號被關注的人和關注的人都相對比較多的，就是下圖中金字塔頂端的人，然後通過爬取這個賬號的資訊後，再爬取他關注的人和被關注的人的賬號資訊，然後爬取被

網路爬蟲之scrapy爬取某招聘網手機APP釋出資訊

1 引言 2 APP抓包分析 3 編寫爬蟲昂 4 總結 1 引言過段時間要開始找新工作了，爬取一些崗位資訊來分析一下吧。目前主流的招聘網站包括前程無憂、智聯、BOSS直聘、拉勾等等。有

WebMagic爬蟲入門教程（三）爬取汽車之家的例項-品牌車系車型結構等

本文使用WebMagic爬取汽車之家的品牌車系車型結構價格能源產地國別等；java程式碼備註，只是根據url變化爬取的，沒有使用爬取script頁面具體的資料，也有反爬機制，知識簡單爬取html標籤爬取的網頁：需要配置pom.xml <!-

【爬蟲入門】【非同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 # 多執行緒/多程序：提高程式碼的執行效率，放在爬蟲中就是提高爬取效率。因為可以使用多個程序同時對多個頁面發起請求。 # 之前的糗事百科/51job同步執行：按照先後順序一個一個執行。 from urllib.request import urlopen from ur

【爬蟲入門】【同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 from urllib.request import urlopen from urllib.error import HTTPError import re, sqlite3 class RRCSpider(object): """ 人人車爬蟲類

【爬蟲入門】【Json】爬取智聯招聘

爬蟲中也會經常會遇到以JSON資料返回內容的網站，這種網站不再需要使用正則表示式匹配文字，直接分析網站是否含有介面返回JSON，如果有，直接使用json.load()對json字串進行解析就可以獲取資料。 # pip install requests:比較流行的第三方請求庫 #https

使用selenium + chrome爬取中國大學Mooc網的計算機學科的所有課程鏈接

link_list () cat 圖片谷歌瀏覽器 dom tps 類名異步加載目的：使用selenium + chrome爬取中國大學Mooc網計算機學科的所有的課程鏈接列表思路：找到每個分頁的節點屬性為class=”m-course-list” 的div元素，再找

對爬取中國裁判文書網的分析

相信做爬蟲的小夥伴們遇到‘中國裁判文書網’，就感覺無從下手。沒關係，救星來了，幫你快速理清爬蟲思路。一.工具：谷歌瀏覽器二.要爬取的內容：所有案件的決定書的詳細內容。例：但右鍵檢視‘網頁原始碼’，卻什麼內容都沒有。三.裁判文書網分析： 1.該網站是動

爬取中國福彩網

import requests import json import pandas as pd import csv cookies = { 'UniqueID': 'xfxbgZKQTNlC0laj1534566549004', 'Sites': '_21',

Python3[爬蟲實戰] scrapy爬取汽車之家全站連結存json檔案

昨晚晚上一不小心學習了崔慶才，崔大神的部落格，試著嘗試一下爬取一個網站的全部內容，福利吧網站現在已經找不到了，然後一不小心逛到了汽車之家 (http://www.autohome.com.cn/beijing/) 很喜歡這個網站，女人都喜歡車，更何況男人呢。（

Python3爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows Python版本： Python3.x 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 instal

python3[爬蟲實戰] 爬蟲之requests爬取新浪微博京東客服

爬取的內容為京東客服的微博及評論思路:主要是通過手機端訪問新浪微博的api介面，然後進行資料的篩選，這個主要是登陸上去的微博的url連結，可以看到的介面：這裡主要爬取的內容為：說說，說說下面的評論條目雖然很簡單，但是，不得不說句mmp，爬

Python3 大型網路爬蟲實戰 003 — scrapy 大型靜態圖片網站爬蟲專案實戰 — 實戰：爬取 169美女圖片網高清圖片

開發環境 Python第三方庫：lxml、Twisted、pywin32、scrapy Python 版本：python-3.5.0-amd64 PyCharm軟體版本：pycharm-professional-2016.1.4 電腦系統：Wi

Python爬蟲從入門到放棄之 Scrapy框架中Download Middleware用法

sta 頻繁 space raw 處理們的 img ear 法則這篇文章中寫了常用的下載中間件的用法和例子。Downloader Middleware處理的過程主要在調度器發送requests請求的時候以及網頁將response結果返回給spiders的時候，所以從

Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

執行平臺： Windows Python版本： Python3.x 一、庫檔案

Python爬蟲框架：Scrapy 爬取伯樂線上實戰

專案介紹使用Scrapy框架進行爬取伯樂線上的所有技術文章所用知識點 Scrapy專案的建立 Scrapy框架Shell命令的使用 Scrapy自帶的圖片下載管道 Scrapy自定義圖片下載管道(繼承自帶的管道) Scrapy框架ItemLoader

python3 [爬蟲入門實戰]爬蟲之scrapy爬取中國醫學人才網

這裡爬取的內容上面都有標註，只不過，爬取下來沒有儲存連結（稍微有點小遺憾，白天干兼職很累的，上家公司現在還沒發工資。。）

這個是為：我是呆子爬取的資料

相關推薦