智聯招聘抓取---scrapy框架和requests庫兩種方式實現

阿新 • • 發佈：2018-12-12

#首先分析目標站點，分析得出結果是在json接口裡，然後抓取企業資訊需要再次請求頁面進行抓取在這裡插入圖片描述

#1.直接requests請求進行抓取儲存

##需要注意點：

可能不同企業單頁排版不一樣，需要判斷採取不同形式
儲存為csv檔案注意格式，保證資料表格不換行需要新增 newline=’’

import requests
import json
from lxml import etree
import csv

lists=[]
for n in range(0,1):
    url="https://fe-api.zhaopin.com/c/i/sou?start={}&pageSize=60&cityId=530&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=python&kt=3&lastUrlQuery=%7B%22p%22:2,%22pageSize%22:%2260%22,%22jl%22:%22530%22,%22kw%22:%22python%22,%22kt%22:%223%22%7D".format(n*60)

    response=json.loads(requests.get(url).text)
    # print(response)
    for i in range(0,60):
        page=response["data"]["results"][i]["company"]["url"]
        # print(page)
        if len(page)< 48:
            html=requests.get(page).text

            a=etree.HTML(html)
            dizi=a.xpath('//table[@class="comTinyDes"]//span[@class="comAddress"]/text()')

            jianjie=a.xpath('string(//div[@class="part2"]//div)').strip()

            gongsi = response["data"]["results"][i]["company"]["name"]

            guimo = response["data"]["results"][i]["company"]["size"]["name"]

            xinchou = response["data"]["results"][i]["salary"]


            lists.append([i+1,gongsi,page,guimo,xinchou,dizi,jianjie])
            print(lists)
            print(gongsi)
            print(page)
            print(guimo)
            print(xinchou)
            print(dizi)
            print(jianjie)
            print("*"*50)
            # with open("aa.txt","a",encoding="utf-8") as f:
            #     f.write("{}{}  {}  {}  {} {} {}".format(i+1,gongsi,page,guimo,xinchou,dizi,jianjie))
                # f.write("\n")


        else:
            continue

with open("aa.csv", 'w', encoding='utf-8',newline='') as f:
    k = csv.writer(f, dialect='excel')
    k.writerow(["數量", "公司", "網址", "規模", "薪酬", "地址", "簡介"])

    for list in lists:
        k.writerow(list)
        # print("="*20)

#2.用scrapy框架進行抓取

需要注意點：

def parse(self, response):
    item = ItemClass()
    yield Request(url, meta={'item': item}, callback=self.parse_item)
def parse(self, response):
    item = response.meta['item']
    item['field'] = value
    yield item

作者：何健
連結：https://www.zhihu.com/question/54773510/answer/141177867
來源：知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。

儲存為csv檔案換行問題處理 scrapy crawl zhilian -o aaa.csv 修改scrapy的原始碼原始碼目錄D:\Python36\Lib\site-packages\scrapy\exporters.py 新增一行 newline="",

class CsvItemExporter(BaseItemExporter):
    def __init__(self, file, include_headers_line=True, join_multivalued=',', **kwargs):
        ...
        self.stream = io.TextIOWrapper(
            file,
            newline="",     # 新新增的
            line_buffering=False,
            write_through=True,
            encoding=self.encoding
        ) if six.PY3 else file

---------------------

本文來自 範翻番樊 的CSDN 部落格 ，全文地址請點選：https://blog.csdn.net/u011361138/article/details/79912895?utm_source=copy

scrapy引用items方法常路徑不對出錯解決方法這是因為編譯器的問題，pycharm不會將當前檔案目錄自動加入自己的sourse_path

那麼具體的解決方法如下：

1）找到你的scrapy專案上右鍵

2）然後點選make_directory as

3）最後點選sources root

4）看到資料夾程式設計藍色就成功了

#最後是scrapy抓取智聯招聘程式碼spider：

# -*- coding: utf-8 -*-
import scrapy
import json
from zhilianzp.items import ZhilianzpItem

cc={}
class ZhilianSpider(scrapy.Spider):
    name = 'zhilian'

    # start_urls = ['https://www.baidu.com/']
    def start_requests(self):
        url = "https://fe-api.zhaopin.com/c/i/sou?start=0&pageSize=60&cityId=530&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=python&kt=3&lastUrlQuery=%7B%22p%22:2,%22pageSize%22:%2260%22,%22jl%22:%22530%22,%22kw%22:%22python%22,%22kt%22:%223%22%7D"
        yield  scrapy.Request(url=url,callback=self.parse)


    def parse(self, response):
        content=json.loads(response.text)
        item = ZhilianzpItem()
        for i in range(0, 60):
            page = content["data"]["results"][i]["company"]["url"]
            # item = ZhilianzpItem()
            # print(page)
            if len(page) < 48:

                item["gongsi"]=content["data"]["results"][i]["company"]["name"]
                item["guimo"]=content["data"]["results"][i]["company"]["size"]["name"]
                item["xinchou"]=content["data"]["results"][i]["salary"]
                yield scrapy.Request(page,meta={"key":item},callback=self.next_parse)
                # print(item["gongsi"])
            else:
                continue
        # return content
        # yield item
    def next_parse(self,response):

        # item = ZhilianzpItem()
        item=response.meta['key']
        # item["gongsi"] = content["data"]["results"][i]["company"]["name"]
        item["dizi"]= response.xpath('//table[@class="comTinyDes"]//span[@class="comAddress"]/text()').extract()

        item["jianjie"] = response.xpath('string(//div[@class="part2"]//div)').extract_first()
        yield item
        # print(jianjie)

智聯招聘抓取---scrapy框架和requests庫兩種方式實現

#首先分析目標站點，分析得出結果是在json接口裡，然後抓取企業資訊需要再次請求頁面進行抓取 #1.直接requests請求進行抓取儲存 ##需要注意點：可能不同企業單頁排版不一樣，需要判斷採取不同形式儲存為csv檔案注意格式，保證資料表格不換行需要新增

遞迴和迭代兩種方式實現歸併排序（Java版）

遞迴版 package MergeSort; import Utils.SortUtils; /** * 歸併排序遞迴版 * @author liguodong */ pub

基於陣列和連結串列兩種方式實現棧

棧是一種先進後出的資料結構，在實際程式設計棧有很廣泛的用處，Java棧已經幫我們實現好了stack類。實現棧的兩種方式，基於陣列實現和基於連結串列實現。 1.stack介面 public interface StackADT { //入棧操作 public voi

用陣列和連結串列兩種方式實現佇列

手寫陣列實現佇列 1 int queue[20]; 2 int front,rear; 3 4 void clear() 5 { 6 front = rear = -1; 7 } 8 9 int size() 10 { 11 return (rear-front)

C++使用迭代和遞迴兩種方式實現連結串列逆序演算法

1.連結串列逆序的兩種演算法 C++實現一個連結串列逆序演算法 2.連結串列逆序演算法實現原理如A->B->C->D->E，一般會有以下兩種思路，如下思路1：先取出連結串列的最後一個E，然後將E作為新連結串列的頭，現在狀

傳智播客JNI第七講 – JNI中的全域性引用/區域性引用/弱全域性引用、快取jfieldID和jmethodID的兩種方式

講解JNI中的全域性引用/區域性引用/弱全域性引用、快取jfieldID和jmethodID的兩種方式，並編寫兩種快取

C#簡單爬取資料（.NET使用HTML解析器ESoup和正則兩種方式匹配資料）

一、獲取資料想弄一個數據庫，由於需要一些人名，所以就去百度一下，然後發現了360圖書館中有很多人名然後就像去複製一下，發現複製不了，需要登陸此時f12檢視原始碼是可以複製的，不過就算可以複製想要插入資料也是很麻煩的。既然複製走不通，於是我抱著探索知識的精神，打開了Visual Studio 首先我

9.10 路由控制之反向解析--【別名】html和views兩種方式實現

com 反向技術分享 http mage login gin bsp 分享圖片 1. 在html裏反向解析給路徑起別名，修改路徑時，不用每個地方都修改。 {% url ‘Log‘ %} : 就會去找別名為Log的URL,找到 "login/"後把"logi

leetCode 349號題目詳解兩個陣列的交集 ,python3兩種方式實現, 複雜度分別為O(n^2) 和 O(n)

給定兩個陣列，編寫一個函式來計算它們的交集。示例 1: 輸入: nums1 = [1,2,2,1], nums2 = [2,2] 輸出: [2] 示例 2: 輸入: nums1 = [4,9,5], nums2 = [9,4,9,8,4] 輸出: [9,4] 說明: 輸出結果中的每個元素一

java實現二分查詢演算法，兩種方式實現，非遞迴和遞迴

java實現二分查詢演算法 1、概念 2、前提 3、思想 4、過程 4、複雜度 5、實現方式 1. 非遞迴方式 2. 遞迴方式

P5.JS 手繪和碼繪兩種方式“運動”主題作品的對比研究

這次作業我針對的主題是“斐波那契螺旋線” 背景知識：斐波那契螺旋線，也稱“黃金螺旋”，是根據斐波那契數列畫出來的螺旋曲線，自然界中存在許多斐波那契螺旋線的圖案，是自然界最完美的經典黃金比例。作圖規則是在以斐波那契數為邊的正方形拼成的長方形中畫一個90度的扇形，連起來的弧線就是斐波那契螺旋線。在這

fastDFS+LibreOffice多檔案上傳(二)後端部分：檔案資訊轉json字串儲存資料庫(Gson和org.json兩種方式)

需要注意的地方： 1）如果你複製我的程式碼到你的程式上報錯，可以看看我第一篇文章實體類跟配置檔案的設定：https://blog.csdn.net/qq_36688143/article/details/84162924 第二篇檔案上傳前端頁面的程式碼： https://blog.c

leetCode 349號題目兩個陣列的交集 ,兩種方式實現, 複雜度分別為O(n^2) 和 O(n)

給定兩個陣列，編寫一個函式來計算它們的交集。示例 1: 輸入: nums1 = [1,2,2,1], nums2 = [2,2] 輸出: [2] 示例 2: 輸入: nums1 = [4,9,5], nums2 = [9,4,9,8,4] 輸出: [9,4] 說明:

獲取後臺資料使用JQ-AJAX 和 Vue-Axios 兩種方式的使用對比

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content=

spring之AOP操作（基於aspectJ實現）--配置檔案和註解兩種方式實現

AOP概念　　1 aop：面向切面（方面）程式設計，擴充套件功能不修改原始碼實現　　2 AOP採取橫向抽取機制，取代了傳統縱向繼承體系重複性程式碼　　3 aop底層使用動態代理實現　　　　（1）第一種情況，有介面情況，使用動態代理建立介面實現類代理物

Java和PHP兩種方式實現上傳圖片到新浪微博的圖床

這幾天遇到一個需求,需要將圖片上傳到新浪微博的圖傳,研究了一下, 特此記錄1.模擬登陸,獲取cookie登入地址為:https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.15)&_=140313

手繪和碼繪兩種方式創作“運動”主題

藝術的展現形式有多種多樣，繪畫的方式也有很多。這篇文章主要來比較一下手繪與碼繪。什麼是碼繪？用程式語言即程式碼來畫畫。一般人更多接觸到的是手繪，只有從事或研究相關方面的才會比較瞭解碼繪。聽說現在的藝術生都要學點程式設計呢。上面兩張就是用processing作的

虛擬機器下 solr7.1 cloud 叢集搭建（手動解壓和官方指令碼兩種方式）

準備工作： vmware workstation 12，OS使用的是ubuntu16.04，三臺虛擬機器搭建一個solr叢集，zookeeper共用這三臺虛擬機器組成zookeeper叢集。 zookeeper的版本為3.4.10，solr版本為7.1，不使用

SpringMvc 上傳excel（註解和非註解兩種方式）

1、第一種方式： A:JSP頁面： <form name="importForm" action="${ctx }/service/userService/BatchImport.do" method="post" enctype="multipar

合併兩個陣列並去重（ES5和ES6兩種方式實現）

ES6實現方式 let arr1 = [1, 1, 2, 3, 6, 9, 5, 5, 4] let arr2 = [1, 2, 5, 4, 9, 7, 7, 8, 8] f

智聯招聘抓取---scrapy框架和requests庫兩種方式實現

相關推薦