Python爬取58同城招聘資訊

阿新 • • 發佈：2019-01-12

微信搜尋關注“程式設計師旅途”公眾號，檢視更多

環境要求：

(1)python3環境
(2)requests模組：是一個很實用的Python HTTP客戶端庫，安裝指令pip install requests
(3)BeautifulSoup模組：提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，安裝指令pip install BeautifulSoup
(4)lxml模組：解析HTML程式碼，pip install lxml

具體爬取過程

以杭州的軟體工程師招聘資訊為例
第一步：分析url
通過訪問招聘資訊的頁面，發現共有九頁內容，通過訪問幾頁內容發現url是規律的，具體如下
第一頁：http://hz.58.com/ruanjiangong/pn1/
第二頁：http://hz.58.com/ruanjiangong/pn2/
第三頁：http://hz.58.com/ruanjiangong/pn3/
…
第九頁：http://hz.58.com/ruanjiangong/pn9/
發現url的規律之後，我們就可以輕輕鬆鬆的通過for迴圈爬取每一頁的內容了。
第二步：分析原始碼以及如何獲取指定資料
下面以第一頁為例分析網頁原始碼從而獲取指定資料（假設我們只需要知道公司位置/具體職位/月薪/公司名稱/福利/公司招聘網址）：
我們通過檢視原始碼發現每一條招聘資訊對於一個li標籤,而每個li中又通過div來分塊，這樣我們可以通過li的class屬性值來獲取這一系列標籤，然後通過div的class屬性值來獲取某一區域的內容，接下來我們需要通過按標籤一級一級來進行定位來從每個區域提取上述列出的內容。

下面以獲取某公司位置為例，滑鼠放在“西湖區”右擊選擇檢查（或檢視元素）

這樣我們可以在每個li標籤中通過篩選每級的class值來獲取公司位置，即位置獲取方式是通過"div.item_con span.address"來獲取，對應的python程式碼為：

address = item.select("div.item_con span.address")[0].text  #select()返回的是list型別，text是獲取標籤的內容

同理，我們可以得出

name = item.select("div.item_con span.name")[0].text
salary = item.select("div.item_con p.job_salary" 
)[0].text
welfare = item.select("div.item_con div.job_wel")[0].text
company = item.select("div.item_con div.comp_name a.fl")[0].text
href = item.select("div.item_con div.comp_name a.fl")[0].get("href") #get()是通過屬性名來獲取屬性值

第三步：編寫程式碼
根據第二步得出的資料的獲取方式，接下來就是程式碼實現了

import requests
import time
from bs4 import BeautifulSoup
url = "http://hz.58.com/ruanjiangong/pn{}" 

def spider():
    for i in range(9):
        req = requests.get(url.format(str(i + 1)))
        req.encoding = "utf-8"  #設定成網頁的編碼
        soup = BeautifulSoup(req.text, "lxml")
        items = soup.select("li.job_item")
        for item in items:
            address = item.select("div.item_con span.address")[0].text  #select()返回的是list型別
            name = item.select("div.item_con span.name")[0].text
            salary = item.select("div.item_con p.job_salary")[0].text
            if len(item.select("div.item_con div.job_wel")) > 0:
                welfare = item.select("div.item_con div.job_wel")[0].text
            company = item.select("div.item_con div.comp_name a.fl")[0].text
            href = item.select("div.item_con div.comp_name a.fl")[0].get("href")
            print("%s\t%s\t%s\t%s\t%s\t%s"%(address, name, salary, company,welfare,href))
        time.sleep(2)
if __name__ == '__main__':
    spider()

第四步：執行獲取資料
執行程式碼，輸出所需的資料:

Python爬取58同城招聘資訊

微信搜尋關注“程式設計師旅途”公眾號，檢視更多

Python爬取58同城招聘資訊

python：爬取58同城全部二手商品資訊（轉轉網）

Python爬蟲學習_多程序爬取58同城

爬取58同城的二手房資訊

使用爬蟲scrapy庫爬取58同城出租房的聯絡方式地址

用python爬取拉勾網招聘資訊並以CSV檔案儲存

Python爬取拉勾網招聘資訊存入資料庫

Python爬取拉勾網招聘資訊

Python爬取拉勾網招聘資訊並可視化分析

python爬取拉鉤網招聘資訊

scrapy爬取58同城二手房問題與對策

Python 3.6 優雅的爬取獵聘網招聘資訊

Python scrapy 爬取拉勾網招聘資訊

實訓專案（一）——58同城出租資訊抓取（上）

用Python爬取拉鉤網招聘職位資訊

利用高德API + Python爬取鏈家網租房資訊 01

Python爬蟲實戰--58同城二手商品爬蟲

HttpClient爬取拉勾網招聘資訊

python爬取豆瓣電影Top250的資訊

python爬取網易雲歌曲資訊及下載連結並簡單展示

Python爬取58同城招聘資訊

微信搜尋關注“程式設計師旅途”公眾號，檢視更多

相關推薦