Python3 爬取51job的資料存入MongoDB並分析

阿新 • • 發佈：2018-12-14

1.開啟51job首頁，輸入Python，地址選擇深圳，得到搜尋頁面：

3.不同點：

items.py新增如下程式碼：

from scrapy import Item,Field

class JobsItem(Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    job = Field()
    company = Field()
    area = Field()
    salary = Field()
    datetime = Field()

settings.py新增如下程式碼：

ROBOTSTXT_OBEY = False
#模擬瀏覽器，應對反爬
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
#解決字元亂碼的問題
FEED_EXPORT_ENCODING = 'gbk'

ITEM_PIPELINES = {
    'jobs.pipelines.MongoPipeline': 300,
}

MONGO_URL = 'localhost'
MONGO_DB = '51job'

spider資料夾類的py檔案新增如下程式碼：

# -*- coding: utf-8 -*-
import scrapy
import time
from jobs.items import JobsItem


class A51jobSpider(scrapy.Spider):
    name = 'a51job'
    allowed_domains = ['search.51job.com']
    # start_urls = ['http://www.51job.com/']
    start_urls = ["https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="]

    def parse(self, response):
        infos = response.css('.el')
        for info in infos:
            item = JobsItem()
            job = info.css('a::attr("title")')
            if len(job) == 0:
                continue
            item['job'] = info.css('a::attr("title")').extract_first().strip()
            item['company'] = info.css('span a::attr("title")').extract()[-1].strip()
            item['area'] = info.css('.t3::text').extract_first().strip()
            item['datetime'] = info.css('.t5::text').extract_first().strip()
            salary = info.css('.t4::text')
            if len(salary) == 0:
                yield item
                continue
            item['salary'] = info.css('.t4::text').extract_first().strip()
            yield item

        time.sleep(1)
        url = response.css('.bk a::attr("href")').extract()[-1]  #查詢下一頁的連結
        yield scrapy.Request(url = url,callback = self.parse)    #解析下一頁

執行，儲存至MongoDB資料庫，如圖：

分析：

In [1]: import pymongo

In [2]: client = pymongo.MongoClient(host = 'localhost',port = 27017)

In [3]: db = client['51job']

In [4]: collection = db.JobsItem

In [5]: collection.find().count()
C:\Users\Administrator\AppData\Local\Programs\Python\Python37\Scripts\ipython:1:
 DeprecationWarning: count is deprecated. Use Collection.count_documents instead
.
Out[5]: 5326

一共有5326條招聘資訊。

#查詢今日釋出的前50條招聘
In [6]: results = collection.find({'datetime':{'$gt':'10-06'}}).limit(50)

In [7]: for result in results:
    ...:     print ("公司:{}\t薪水:{}".format(result.get('company'),result.get(
    ...: 'salary')))
    ...:
公司:深圳市度點科技有限公司     薪水:0.8-2萬/月
公司:深圳市恆牛科技有限公司     薪水:3-4萬/月
公司:深圳市光速度科技有限公司   薪水:6-9千/月
公司:深圳市德梅寒科技有限公司   薪水:2-2.5萬/月
公司:深圳市卓達電子有限公司     薪水:1-1.6萬/月
公司:深圳市易思博酷客科技有限公司       薪水:1-1.8萬/月
公司:睿思商業智慧（深圳）有限公司       薪水:4.5-7千/月
公司:達觀資料   薪水:1.8-3.6萬/月
公司:深圳德聚企業管理諮詢有限公司       薪水:2-4萬/月
公司:深圳飛豹航天航空科技有限公司       薪水:1-1.5萬/月

Python3 爬取51job的資料存入MongoDB並分析

1.開啟51job首頁，輸入Python，地址選擇深圳，得到搜尋頁面： 3.不同點： items.py新增如下程式碼： from scrapy import Item,Field class JobsItem(Item): # define the f

Python3 Scrapy框架學習四：爬取的資料存入MongoDB

1. 新建一個scrapy專案： 2.使用PyCharm開啟該專案 3.在settings.py檔案中新增如下程式碼： #模擬瀏覽器，應對反爬 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK

python爬取豆瓣250存入mongodb全紀錄

xpath author cli content call function 取出 pycha 出版社用了一周的時間總算搞定了，跨過了各種坑，總算調試成功了，記錄如下： 1、首先在cmd中用命令行建立douban爬蟲項目 scrapy startproject douba

爬蟲——爬取網頁資料存入表格

最近由於個人需要，從相關書籍以及網上資料進行爬蟲自學，目標網址為http://mzj.beijing.gov.cn，對其內容進行整理篩選，存入excel格式。首先是對錶格的內容進行設定，編碼格式定義為utf-8，新增一個sheet的表格，其中head為表頭的內容，定義之後，利用sheet.wr

python3 爬取影像資料

一、需求說明：入口檔案：http://data.marsgis.cn/3dtiles/bim-youeryuan/tileset.json 從這個JSON開始，裡面還有其他JSON的URL 然後再開啟其他的JSON，依次找裡面的JSON和b3dm檔案，全部下載注意：檔案的路徑也要建立。二

python爬蟲: 爬取拉勾網職位並分析

0. 前言本文從拉勾網爬取深圳市資料分析的職位資訊，並以CSV格式儲存至電腦, 之後進行資料清洗, 生成詞雲，進行描述統計和迴歸分析,最終得出結論. 1. 用到的軟體包 Python版本： Python3.6 requests: 下載網

Python3爬取貓眼電影榜並將資料存入MySql

直接上程式碼： #coding=utf-8 import re import time import pymysql import requests from requests.exceptions import RequestException from bs4 import Beautif

使用scrapy框架,用模擬瀏覽器的方法爬取京東上面膜資訊,並存入mysql,sqlite,mongodb資料庫

因為京東的頁面是由JavaScript動態載入的所以使用模擬瀏覽器的方法進行爬取,具體程式碼如下 : spider.py # -*- coding: utf-8 -*- import scrapy from scrapy import Request from jdpro.items

Python3 爬取豆瓣圖書Top250並存入Excel中

#coding=utf-8 import re import xlwt import requests from bs4 import BeautifulSoup def getHtml(url): headers = {'User-Agent': 'Mo

python 爬蟲使用正則爬取51job內容並存入txt

python爬蟲基礎–使用正則提取51job內容輸出到txt from urllib import request #url url = 'https://search.51job.com/list/020000%252C010000%252C080200%25

Python爬蟲爬取資料存入MongoDB

from bs4 import BeautifulSoup import requests import time import pymongo client = pymongo.MongoClient('Localhost', 27017) ceshi = client[

scrapy爬取新浪微博並存入MongoDB中

spider.pyimport json from scrapy import Request, Spider from weibo.items import * class WeiboSpider(Spider): name = 'weibocn'

python3爬取指定百度貼吧頁面並儲存成本地文件（批量爬取貼吧頁面資料）

首先我們建立一個python檔案, tieba.py，我們要完成的是，輸入指定百度貼吧名字與指定頁面範圍之後爬取頁面html程式碼，我們首先觀察貼吧url的規律，比如：發現規律了吧，貼吧中每個頁面不同之處，就是url最後的pn的值，其餘的都是一樣的，我們

Python3爬蟲之五：爬取網站資料並寫入excel

本文主要講解如何將網頁上的資料寫入到excel表中，因為我比較喜歡看小說，我們就以筆趣閣的小說資料為例，來說明怎麼把筆趣閣的小說關鍵資訊統計出來，比如：小說名、字數、作者、網址等。根據之前的幾次爬蟲例項分析筆趣網原始碼知道，小說名在唯一的標籤h1中，因此可以

scrapy爬取海量資料並儲存在MongoDB和MySQL資料庫中

前言一般我們都會將資料爬取下來儲存在臨時檔案或者控制檯直接輸出，但對於超大規模資料的快速讀寫，高併發場景的訪問，用資料庫管理無疑是不二之選。首先簡單描述一下MySQL和MongoDB的區別：MySQL與MongoDB都是開源的常用資料庫，MySQL是傳

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

爬取博主所有文章並保存到本地（.txt版）--python3.6

選中搜索 temp getc 變量文件中計數學習 mat 閑話：一位前輩告訴我大學期間要好好維護自己的博客，在博客園發布很好，但是自己最好也保留一個備份。正好最近在學習python，剛剛從py2轉到py3，還有點不是很習慣，正想著多練習，於是萌生了這個想法——用

爬資料時？IP老被封？這樣就不會被封了！爬取西刺代理IP並驗證

胡蘿蔔醬最近在爬取知乎使用者資料，然而爬取不了一會，IP就被封了，所以去爬取了西刺代理IP來使用。這裡爬取的是西刺國內高匿IP。我們需要的就是這一串數字。進群：548377875&nbs

python3爬取qq音樂並下載 Python 爬取qqmusic音樂url並批量下載

本文參考Python 爬取qqmusic音樂url並批量下載同學找我爬取一下qq音樂播放連結，包括歌詞等資訊打包成json，試了一下可以爬取。一、找到qq音樂播放的url 1.找到搜尋頁面返回的資料包歌曲最終的播放連結時經過多次拼接的，首先找到qq音樂搜尋歌曲介面，https://y.qq.

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

Python3 爬取51job的資料存入MongoDB並分析

相關推薦