爬取某招聘網站的招聘資訊（獵聘）

阿新 • • 發佈：2019-02-03

這該找工作了，俗話說的胡奧，金九銀十嘛。一個一個招聘資訊找著看，有點麻煩。所以心動了下，不如把我想找的資訊都爬取下來，直接sql語句查詢所有相關資訊，多方便，是吧~

注：
如果start-urls只設置一個的話，那麼只會爬取等於或者小於40條資料（會有重複）

Spider塊：
資訊搜尋，原本是想搜python、爬蟲之類的，後來寫著寫著就變成java了。果真還是忘不了自己的母語言啊~

import scrapy
from liepinSpider.items import LiepinspiderItem

class LisPinSpider(scrapy.Spider): 

    name = 'liepin'
    allowed_domains = ['www.liepin.com']
    start_urls = [
        'https://www.liepin.com/sh/zhaopin/?dqs=020&salary=&isAnalysis=true&init=1&searchType=1&fromSearchBtn=1&jobTitles=&industries=&industryType=&d_headId=89d222c119810d9835c864b9842ca41a&d_ckId=89d222c119810d9835c864b9842ca41a&d_sfrom=search_city&d_curPage=0&d_pageSize=40&siTag=&key=java' 

    ]
    #這個地址是該網站翻頁第二頁的地址，只需要在/zhaopin/後面加上pn1（第2頁，以此類
    #推）
    #還有，在這裡要吐槽下獵聘的這個翻頁，搜尋關鍵字和區域後，進行翻頁，關鍵字和區域都
    #沒了，我還要手動修改拼接url地址。最主要的是，使用者體驗沒了啊。不懂技術的人，壓根
    #不知道怎麼看第二頁內容了。。
    #如果想做的更靈活，直接input，修改key關鍵字地址就行，中文需要更改下編碼，
    #就這樣
    # https://www.liepin.com/sh/zhaopin/pn1/?dqs=&salary=&isAnalysis=true&init=1&searchType=1&fromSearchBtn=1&jobTitles=&industries=&industryType=&d_headId=89d222c119810d9835c864b9842ca41a&d_ckId=89d222c119810d9835c864b9842ca41a&d_sfrom=search_city&d_curPage=0&d_pageSize=40&siTag=&key=java 

    def parse(self, response):
        list = response.css('.sojob-list li')
        for li in list:
            html_url = li.css('.job-name a::attr(href)').extract_first()
            yield scrapy.Request(html_url, callback=self.content)
        #這個位置可以編寫下一頁的訪問請求
        #yield scrapy.Request('拼接好的url'，callback=self.parse)

    def content(self, response):
        item = LiepinspiderItem()
        #這個是直接獲取該頁面的url地址
        html_url = response.url

        title = response.css('.title-info h1::text').extract_first()
        company = response.css('.title-info h3 a::text').extract_first()
        money = response.css('.job-item-title::text').extract_first()
        address = response.css('.basic-infor a::text').extract_first()
        times = response.css('.basic-infor time::attr(title)').extract_first()
        job_query_list = response.css('.job-qualifications span::text').extract()
        job_query = ''
        for job_querys in job_query_list:
            job_query += job_querys + ','
        tag_list = response.css('.tag-list span::text').extract()
        tags = ''
        for tag_span in tag_list:
            tags += tag_span + ','
        job_contents = response.css('.job-description div::text').extract()
        job_content=''
        for job in job_contents:
            job_content += job.replace('\r\n','')

        #不要忘了在item中設定相關的引數呦
        #招聘網頁url
        item['html_url'] = html_url
        #標題
        item['title'] = title
        #公司名稱
        item['company'] = company
        #薪水
        item['money'] = money.strip()
        #公司地址（這個是區域地址，詳細地址可以在頁面上找到，自己修改下就好了）
        item['address'] = address
        #釋出時間
        item['times'] = times
        #簡寫的工作條件
        item['job_query'] = job_query
        #福利待遇
        item['tags'] = tags
        #詳細的工作職責和工作條件
        item['job_content'] = job_content.strip()
        yield item

pipelines塊：
不要忘記在setting中開啟pipelines模組啊~~
ITEM_PIPELINES = {
‘liepinSpider.pipelines.LiepinspiderPipeline’: 1,
}

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql
from scrapy.exceptions import DropItem
def dbHandle():
    conn = pymysql.connect(
        host='localhost',
        user='root',
        passwd='Cs123456.',
        charset='utf8',
        db='liepin',
        use_unicode=False
    )
    return conn


class LiepinspiderPipeline(object):

    def process_item(self, item, spider):
        #連線資料庫
        db = dbHandle()
        #開啟遊標
        cursor = db.cursor()
        #拼接sql
        sql = 'insert into liepin_list (url, title, company, money, address, times, job_query, tags, job_content)  ' \
              'value ("{html_url}", "{title}", "{company}", "{money}", "{address}", "{times}", "{job_query}", "{tags}", "{job_content}");'.format(
            **item)
        try:
            #判斷
            re = self.db_distinct(item['html_url'])
            if re:
                try:
                    cursor.execute(sql)
                    db.commit()
                except:
                    raise DropItem('sql執行錯誤')

            else:
                raise DropItem('資料已存在')


        except:
            db.rollback()
            cursor.close()

    #通過招聘地址的url來判斷這個頁面是否被儲存過
    def db_distinct(self, html_url):
        db = dbHandle()
        cursor = db.cursor()
        sql = 'select * from liepin_list where url ="{}"'.format(html_url)

        cursor.execute(sql)
        data = cursor.fetchone()
        cursor.close()
        if data == None:
            return True
        else:
            return False

表結構：
這裡寫圖片描述

查詢的部分資料：
這裡寫圖片描述
這樣就大功告成了，謝謝觀看。

爬取某招聘網站的招聘資訊（獵聘）

這該找工作了，俗話說的胡奧，金九銀十嘛。一個一個招聘資訊找著看，有點麻煩。所以心動了下，不如把我想找的資訊都爬取下來，直接sql語句查詢所有相關資訊，多方便，是吧~ 注：如果start-urls只設置一個的話，那麼只會爬取等於或者小於40條資料

批量爬取某圖片網站的圖片

批量爬取某圖片網站的圖片宣告：僅用於爬蟲學習，禁止用於商業用途謀取利益 1、網頁解析（1）開啟veer首頁，F12(谷歌瀏覽器)，輸入關鍵字，點選搜尋，點選檢視如圖畫圈位置（2）檢視search中的Headers，找到請求的URL和請求的paylo

爬取小豬網站住房資訊並把結果儲存到資料庫中

from bs4 import BeautifulSoup import requests, pymongo #啟用MongoDB client = pymongo.MongoClient('localhost', 27017) #給資料庫命名 xiaozhu = client['xiao

python 3 爬取某小說網站小說，註釋詳細

每一行都有註釋，不多解釋了 import requests from bs4 import BeautifulSoup import os if __name__ == '__main__': # 要下載的網頁 url = 'https://www.b

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

5-14更新注意：目前拉勾網換了json結構，之前是content - result 現在改成了content- positionResult - result,所以大家寫程式碼的時候要特別注意加上

生產者消費者模型爬取某金融網站資料！Python無所不爬！

那麼這個模型和爬蟲有什麼關係呢？其實，爬蟲可以認為是一個生產者，它不斷從網站爬取資料，爬取到的資料就是食物；而所得資料需要消費者進行資料清洗，把有用的資料吸收掉，把無用的資料丟棄。以上便是對生產者消費者模型的簡單介紹了，下面針對本次爬取任務予以詳細說明。分析站點http://www.cfachina.org/

python 爬蟲爬取所有上市公司公告資訊（一）

。，。前面我們已經瞭解了python中多執行緒，selenium，requests等爬蟲基本操作的知識，現在我們準備編寫一個規模較大的爬蟲，目的是爬取所有上市公司2015年至今的公告資訊。相較於前面幾個簡單的爬蟲功能程式碼，公告資訊爬蟲需要考慮更多的問題，現在可以預見到的

python 爬蟲爬取所有上市公司公告資訊（五）

。，。現在我們進過for迴圈，已經獲取到了每一個股票程式碼在2015年至今所有的公告內容連線和公告日期，且是以（日期，公告內容url）元組的形式加入到了爬取佇列中，在最內層迴圈結束後，我們編寫程式實現多執行緒和儲存公告內容的功能。公告最終在對應的json檔案裡是以鍵值對

用Python Scrapy爬取某電影網站並存儲入mysql

爬取目標：javlib，使用框架Scrapy 首先使用在命令列裡scrapy startproject projectname和scrapy genspider spidername指令建立爬蟲。首先定義items.pyimport scrapy class Av

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

上次挖了一個坑，今天終於填上了，還記得之前我們做的拉勾爬蟲嗎？那時我們實現了一頁的爬取，今天讓我們再接再厲，實現多頁爬取，順便實現職位和公司的關鍵詞搜尋功能。之前的內容就不再介紹了，不熟悉的請一定要去看之前的文章，程式碼是在之前的基礎上修改的

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

用python爬取某視訊網站彈幕

文章以bilibili的《變態王子與不笑貓》（這是一部正常的日漫，請放心觀看）為例，爬取該番劇下所有視訊的彈幕。困難的地方主要在尋找視訊的cid上，確實花了點時間，最好找到了也有點恍然大悟，再就是請求彈幕的連結地址，也需要去所有請求裡找，耐心很重要。最後，採用多執行緒

python 爬蟲爬取所有上市公司公告資訊（二）

。，。設計公告資訊爬蟲面臨的主要問題在上一篇文章已經敘述過了，這篇文章我們選擇合適的資料來源和爬取的方式首先選擇爬取的資料來源，這裡筆者經過多方比較，最終選擇了東方財富網作為公告爬蟲的資料來源。下面以飛馬國際為例（002210）我們可以看到，東方財富網專門設有網頁儲

Python3.7爬蟲大量爬取某小說網站小說並寫入mysql(持續完善中...) 未解決問題:mysql長時間新增超過百萬條數據表鎖甚至崩潰

oot req val page src sele 爬蟲 use uwa 練手之作代碼中還有很多問題持續完善中渣渣阿裏T5 99包郵服務器只開了6個進程 #encoding:utf-8 import requests # 請求 from lxml import

程式設計師的福利：使用WebCollector爬取某美女網站上的圖片

程式設計師的福利：使用WebCollector爬取某美女網站上的圖片 0x00 需求某網站，有海量美女圖片，裡面預設是按美女的英文名字（A-Z）排序的。估算了一下，至少也得有3000+位美女照片，每位的照片數目從幾十張到幾百張不等。瀏覽了幾天，才瀏覽了很少的一部分。心想，

selenium 爬取某基金網站資料

# coding: utf-8 from selenium import webdriver import time driver = webdriver.Chrome() driver.get( 'http://fund.eastmoney.com/data/f

java爬取某電影網站資料

使用jsoup獲取動態網站的資料部分程式碼： /** * 獲取分類的所有相對連結地址和名稱，儲存到map中，返回資料 * */ public class GetMoviesName { private String url; H

python爬取網頁包含動態js資訊（3.7 +，2.7+）

post_param = {'action': '', 'start': '0', 'limit': '1'} return_data =

爬取鏈家網租房資訊（萬級資料的簡單實現）

這不是一個很難的專案，沒有ajax請求，也沒有用框架，只是一個requests請求和BeautifulSoup的解析不過，看這段程式碼你會發現，BeautifulSoup不止只有find和fing_all用於元素定位，還有fing_next等其他的更簡單的，

scrapy | scrapy-redis實現分散式爬取：原理，實戰案例（虛擬機器）

1.概念：分散式爬蟲由於需要爬取的資料量大，任務多，一臺機器效率太低，需要多臺機器共同協作處理。分散式爬蟲將多臺主機組合起來，共同完成一個爬取任務，快速高效地提高爬取效率。分散式爬蟲可以分為若干個分散式層級，不同的應用可能由其中部分層級構成。大型分散式爬蟲主

爬取某招聘網站的招聘資訊（獵聘）

相關推薦