python爬蟲3——爬取騰訊招聘全部招聘資訊

阿新 • • 發佈：2018-12-15

python爬蟲2中，已經有了初步的程式碼，之後做了優化

增加了工作職責、工作要求：

獲取的資料有：

程式碼如下：

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup
import urllib2
import urllib
import json    # 使用了json格式儲存


def tengxun(detail,num):
    url = 'https://hr.tencent.com/'
    # detail = 'position.php?&start=0#a'
    request = urllib2.Request(url + detail)
    response =urllib2.urlopen(request)
    resHtml = response.read()
    soup = BeautifulSoup(resHtml,'html.parser', from_encoding='utf-8')
    result = soup.select(".even")
    result += soup.select(".odd")
    # print len(result)
    # 處理頁面
    items = []
    for node in result:
        item = {}
        # 職位名
        zname = node.select('td')[0].get_text()
        # 職位類別
        ztype = node.select('td')[1].get_text()
        # 人數
        znum = node.select('td')[2].get_text()
        # 地點
        zlocal = node.select('td')[3].get_text()
        # 釋出時間
        ztime = node.select('td')[4].get_text()
        # 連結
        detailLink = node.select('td a')[0].attrs['href']
        # 獲取工作職責、工作要求
        request1 = urllib2.Request(url + detailLink)
        response1 = urllib2.urlopen(request1)
        jobHtml = response1.read()
        soup1 = BeautifulSoup(jobHtml, 'html.parser', from_encoding='utf-8')
        # print len(soup1.select('ul.squareli'))
        # 工作職責
        jobRes = ''
        for li in soup1.select('ul.squareli')[0].select('li') :
            jobRes += li.get_text() + '\n'
        # 工作要求
        jobReq = ''
        for li in soup1.select('ul.squareli')[1].select('li') :
            jobReq += li.get_text() + '\n'
        # print jobReq
        # 將資料存入item中
        item['zname']=zname;
        item['detailLink'] = detailLink;
        item['ztype']=ztype
        item['znum'] = znum
        item['zlocal'] = zlocal
        item['ztime'] = ztime
        item['jobRes'] = jobRes
        item['jobReq'] = jobReq
        # 處理工作職責和工作要求
        items.append(item)

    origin = []
    print(len(items))

    # 以json格式輸出到檔案中
    # 禁用ascii編碼，按utf-8編碼
    output = open('tencent.json'+ str(num), 'w')
    for i in origin:
        items.append(i)
    line = json.dumps(items, ensure_ascii=False);
    # print line
    output.write(line.encode('utf-8'))
    output.close()

# print resHtml
for i in range(303):
    print("進行到第" + str(i) + "頁")
    url = 'position.php?&start='+ str(i * 10) +'#a'
    tengxun(url, i)

取出來的json資料：

python爬蟲3——爬取騰訊招聘全部招聘資訊

python爬蟲2中，已經有了初步的程式碼，之後做了優化增加了工作職責、工作要求：獲取的資料有：程式碼如下： #!/usr/bin/env python # -*- coding:utf-8 -*- from bs4 import BeautifulS

python爬蟲--scrapy爬取騰訊招聘網站

背景：虛擬機器Ubuntu16.04，爬取https://hr.tencent.com/招聘資訊！第一步：新建專案：scrapy startproject tencent第二步：編寫items檔案 1 # -*- coding: utf-8 -*- 2 3 # D

Python爬蟲練習——爬取騰訊新聞

在解析後的文字中，使用select選擇器，在文字中選擇指定的元素，通常我們還會使用find()和findall()方法來進行元素選擇。這一步返回的為一個列表，列表內的元素為匹配的元素的HTML原始碼。

<scrapy爬蟲>爬取騰訊社招信息

extra rul topic osi .org 接收處理 += doc 1.創建scrapy項目 dos窗口輸入: scrapy startproject tencent cd tencent 2.編寫item.py文件(相當於編寫模板,需要爬取的數據在這裏

python爬蟲：爬取鏈家深圳全部二手房的詳細信息

data sts rip 二手房 lse area 列表 dom bubuko 1、問題描述：爬取鏈家深圳全部二手房的詳細信息，並將爬取的數據存儲到CSV文件中 2、思路分析: (1)目標網址：https://sz.lianjia.com/ershoufang/ (2

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

Python爬蟲-爬取騰訊QQ招聘崗位資訊（Beautiful Soup）

爬取騰訊招聘資訊-Beautiful Soup --------------------------------------- ============================================ =================================

Python網絡爬蟲Scrapy+MongoDB +Redis實戰爬取騰訊視頻動態評論教學視頻

並發數 www. 深入圖例編程 ppt 研發 read 網絡爬蟲課程簡介學習Python爬蟲開發數據采集程序啦！網絡編程，數據采集、提取、存儲，陷阱處理……一站式全精通！！！目標人群掌握Python編程語言基礎，有誌從事網絡爬蟲開發及數據采集程序開發的人群。學習目

python+scrapy入門教程之爬取騰訊招聘職位資訊

我是用的IDE是pycharm,要想使用scrapy我們先安裝模組file-settings-project Interpreter 安裝完成之後我們開啟Terminal 在終端輸入：scrapy startproject tencent 建立spiders我們需要進入spi

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

Python爬蟲---爬取騰訊動漫全站漫畫

[TOC] ##操作環境 1. 編譯器：pycharm社群版 2. python 版本：anaconda python3.7.4 3. 瀏覽器選擇：Google瀏覽器 4. 需要用到的第三方模組：requests , lxml , selenium , time , bs4,os ##網頁分析 ###明確目標

Python 爬取騰訊電視劇評論

視頻評論爬取騰訊定向爬取騰訊電視劇評論本例思路：打開評論頁面，通過fiddler提取加載評論頁面的網址，對比分析url，構造內容和用戶pattern，然後爬取輸出。1，打開電視劇如果愛頁面https://v.qq.com/x/cover/zjfjxmtdzhowjoz.html，找到下圖影評位置，

爬蟲-python實現的抓取騰訊視頻所有電影

mar read light else highlight 電影 %s find 圖片用python實現的抓取騰訊視頻所有電影的爬蟲 # -*- coding: utf-8 -*- import re import urllib2 from bs4 import

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

[Python] [爬蟲] 3.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——代理池

目錄 1.Intro 2.Source 1.Intro 檔名：proxyPool.py 模組名：代理池引用庫： requests urllib2 lxml scrapy pymongo

用etree和Beautiful Soup爬取騰訊招聘網站

1.lxml 是一種使用 Python 編寫的庫,可以迅速、靈活地處理 XML ，支援 XPath (XML Path Language)，使用 lxml 的 etree 庫來進行爬取網站資訊 2.Beautiful Soup支援從HTML或XML檔案中提取資料的Python庫；支援Python標準庫中的H

scrapy-redis例項，分佈爬蟲爬取騰訊新聞，儲存在資料庫中

本篇文章為scrapy-redis的例項應用，原始碼已經上傳到github: https://github.com/Voccoo/NewSpider 使用到了： python 3.x redis scrapy-redis pymysql Redis-Desktop-Manage

python requests 爬取騰訊科技的新聞

昨天收到一道面試題爬取http://tech.qq.com/articleList/rolls/的新聞，當時看到的時候簡直簡單爆了，事實證明的確是，將將將，就是這個頁面，很普通啊，開幹。。。 1.首先發現在檢視原始碼的時候看不見這些資料，所以需要js抓一下，注意到

(轉)python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見

python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見最後連結），使用的軟體是Sublime Text，我們所需的內容如下圖所示：

python爬蟲3——爬取騰訊招聘全部招聘資訊

相關推薦