python實戰（1）：簡單的資料採集與分析

阿新 • • 發佈：2019-01-09

最近忙著做畢業設計，最愛的python當然成了我的切入點。因此特意找了一個專案來練練手，專案很簡單，就是利用python爬取資料，然後再利用matplotlib進行資料視覺化。

專案設計：爬蟲爬取資料並存入mongodb資料庫中，然後再編寫指令碼讀取資料，進行繪圖。

一：資料爬取（以騰訊招聘為列）
這裡寫圖片描述
這四個類別就是我們的爬取目標
然後看一看網頁原始碼，準備利用xpath提取想要的元素

可以看到有兩個不同的class屬性，為了將兩個都提取出來，我們只需要使用xpath的運算子“ | ”，計算兩個節點的集

(//tr[@class="even"] | //tr[@class="odd" 
])//a/text()

爬蟲原始碼如下

# -*- coding:utf-8 -*-
import requests
from lxml import etree
import time
import pymongo
import random
class Tencent(object):
    def  __init__(self):
        '''
            初始化url
            網頁頁碼下標地址
            爬蟲控制開關
        '''
        self.url="http://hr.tencent.com/position.php?&start=" 

        self.index=0
        self.switch=True
        #建立一個列表用來儲存tencent招聘資訊
        self.tencent_data=[]

    def mongodb(self):
        '''
            建立mongodb物件
            連線mongodb
        '''
        client=pymongo.MongoClient(host="localhost",port=27017)
        db=client.py3
        collection=db.tencent
        for 
 data in self.tencent_data:
            collection.insert(data)
        print("已將資料全部存入到mongodb中！")

    def gethtml(self,url):
        '''
            載入html頁面，並解析為xml文件
        '''
        headers_list=[
                        {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:46.0) Gecko/20100101 Firefox/46.0"},
                        {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36 OPR/37.0.2178.32"},
                        {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"},
                        {"User-Agent":"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)"},
                        {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36"},
                        {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0"},
                    ]
        headers=random.choice(headers_list)
        #捕獲異常
        try:
            response=requests.get(url=url,headers=headers,timeout=20)
        except:
            print("have a error")
        finally:
            response=requests.get(url=url,headers=headers,timeout=20)
        html=response.text
        content=etree.HTML(html)
        return content

    def loadpage(self,url):
        '''
            利用xpaht獲取資訊，存入mongodb中
        '''
        content=self.gethtml(url)
        #職位名稱
        job_title=content.xpath('(//tr[@class="even"] | //tr[@class="odd"])//a/text()')
        #職位類別
        job_category=content.xpath('//tr[@class="even"]//td[2]//text() | //tr[@class="odd"]//td[2]//text()')
        #人數
        number=content.xpath('//tr[@class="even"]//td[3]//text() | //tr[@class="odd"]//td[3]//text()')
        #地點
        location=content.xpath('//tr[@class="even"]//td[4]//text() | //tr[@class="odd"]//td[4]//text()')
        #整合資訊
        info_list=zip(job_title,job_category,number,location)
        for info in info_list:
            #拼接成字典，方便存入mongodb
            info={"job_title":info[0],"job_category":info[1],"number":info[2],"location":info[3]}
            #將資料追加到一個list列表中
            self.tencent_data.append(info)
        print("正在獲取資料"+"-"*10)  
    def startswitch(self):
        '''
            開關
        '''
        while self.switch==True:
            #拼接url地址
            tencenturl=self.url+str(self.index)
            self.loadpage(tencenturl)
            time.sleep(5)
            #判斷是否到了最後一頁
            if self.index<2500:
                self.index+=10
            else:
                self.switch=False
                #將資料存到mongodb中
                self.mongodb()
                print("程式結束")

if __name__ == '__main__':
    tencent=Tencent()
    tencent.startswitch()

執行結果這裡寫圖片描述

二：資料視覺化
原始碼

# -*- coding:utf-8 -*-
import pymongo
import matplotlib.pyplot as plt
import pylab 
#讓matplotlib顯示中文
pylab.mpl.rcParams['font.sans-serif'] = ['SimHei'] 
#連線mongodb
client=pymongo.MongoClient(host="localhost",port=27017)
db=client.py3
collection=db.tencent
#獲取資訊條數
technology=collection.count({"job_category":"技術類"})
design=collection.count({"job_category":"設計類"})
product=collection.count({"job_category":"產品/專案類"})
market=collection.count({"job_category":"市場類"})
function=collection.count({"job_category":"職能類"})
edit=collection.count({"job_category":"內容編輯類"})
service=collection.count({"job_category":"客戶服務類"})
#數值
values=[technology,design,product,market,function,edit,service]
#標籤
labels=["技術類","設計類","產品/專案類","市場類","職能類","內容編輯類","客戶服務類"]
#突出部分
explode=[0,0,0,0,0,0.2,0.5]
#顏色
colors=["yellow","blue","red","purple","green","brown","black"]
#標題
plt.title("招聘崗位型別比例",fontsize=25,color="red")
#標題
plt.pie(values,labels=labels,colors=colors,autopct="%1.2f%%",explode=explode)
plt.axis("equal")
plt.show()

執行結果
這裡寫圖片描述
感覺在深入一點的話，這就是我的畢業設計了！

python實戰（1）：簡單的資料採集與分析

最近忙著做畢業設計，最愛的python當然成了我的切入點。因此特意找了一個專案來練練手，專案很簡單，就是利用python爬取資料，然後再利用matplotlib進行資料視覺化。專案設計：爬蟲爬取資料並存入mongodb資料庫中，然後再編寫指令碼讀取資料，進行

Python基礎（1）：基本資料型別及變數

資料型別：包括整形，長整型（Python 3不支援），浮點型，複數。 type()方法可以檢視變數型別。整形範圍：-2^32——2^32-1 長整型範圍：取決於你的機器所支援的記憶體大小。（Python3中整形和長整型已無縫結合，整形範圍已不受限制，相當於Java中的BigInt

Python學習（1）：基本資料型別

python是一門新興的膠水語言，在國外得到了廣泛的應用。在國外，程式設計基礎課一般會選擇pyhon作為程式語言。在國內，大學程式設計課上使用的語言一開始都是C語言，幾年來也在逐漸往python上轉。python以其簡單易用，函式庫眾多而備受青睞。在機器

Caffe學習筆記（1）：簡單的資料視覺化

caffe的底層是c++寫的，如果要進行資料視覺化，需要藉助其它的庫或者是介面，如opencv,python或者是matlab，python的環境需要自行配置，因為我使用的都是網管同志已經配置好的深度學習伺服器，所以不用管底層的一些配置問題，如果需要自行配置自己

Python（1）：簡單影象處理（圖片->二進位制->圖片）

#coding=utf-8 ''' 1-將圖片轉化為陣列並存為二進位制檔案 2-從二進位制檔案中讀取數並重新恢復為圖片 ''' from __future__ import print_funct

Python自然語言處理實戰（1）：NLP基礎

從建模的角度看，為了方便計算機處理，自然語言可以被定義為一組規則或符號的集合，我們組合集合中的符號來傳遞各種資訊。自然語言處理研究表示語言能力、語言應用的模型，通過建立計算機框架來實現這樣的語言模型，並且不斷完善這樣的語言模型，還需要根據語言模型來設計各種實用的系

Python基礎（1）：基本運算符

src com .com strong images http es2017 image 1-1 1. 算數運算： 2. 比較運算 3. 賦值運算 4. 邏輯運算 5. 成員運算 Python基礎（1）：基本運算符

[Python接口自動化]從零開始學習python自動化（1）：環境搭建

help ins cnblogs 文件中 ssi 空格 plugins 變量 mod 第一步：安裝python編譯環境安裝python編譯環境之前，必須保證已安裝jdk哈，如果為安裝，請參考https://jingyan.baidu.com/article/6dad507

V-rep遠端API控制之Python系列（1）：位置控制模式

本節我們主要介紹如何使用遠端API（Python）的方式來控制機械臂的運動，主要介紹位置控制模式。在V-rep外部控制中，我們通常稱遠端API端為Client端，稱V-REP為Server端，下面的內容分別從Server端和Client端介紹如何配置，最終完

Keras入門實戰（1）：MNIST手寫數字分類

前面的部落格中已經介紹瞭如何在Ubuntu下安裝Keras深度學習框架。現在我們使用 Keras 庫來學習手寫數字分類。我們這裡要解決的問題是：將手寫數字的灰度影象（28 畫素×28 畫素）劃分到 10 個類別中（0~9）。我們將使用 MNIST 資料集，它是機器學

微信小程式入門（1）：簡單介面的實現

原始碼我已經放在GitHub上了https://github.com/A666AHL/pupil 1.安裝微信web開發者工具不多BB，直接從安裝IDE開始首先，你得進入微信公眾平臺官網(https://mp.weixin.qq.com) 點選底部的小程式並檢視詳情

c++學習（1）： string資料型別及stringstream進行資料型別的轉換

1、在c++中string可以直接定義一個字串如：string s;而在c中字串只能用char定義，存放在char陣列當中如：char s[100]; 2、在c++中讀取一行：getline(cin, s);在c中讀取一行gets(s); 3、在c++中字串長s.leng

排序演算法（1）：簡單選擇排序和堆排序

1.簡單選擇排序（1）本質：每一趟從給定待排序序列A[ 1......n ] ，選擇出第i小元素，並和A[i]交換。程式碼： /************************************************* 演算法：簡單選擇排序(升序) 時間

Python練習題（1）：數學計算

這裡有四個數字1,2,3,4，問能組成多少個互不相同且無重複數字的三位數？分析：可以填在個位十位百位的數字都是1,2,3,4這四個數字，那麼我們可以把每一個數字都填入然後去掉重複的即可 1 count = 0 #計數器 2 for i in range(1,5): 3 for j in r

負載均衡演算法（1）：簡單介紹

負載均衡（Load Balance）是分散式系統架構設計中必須考慮的因素之一，它通常是指，將請求/資料【均勻】分攤到多個操作單元上執行，負載均衡的關鍵在於【均勻】。常見網際網路分散式架構如上，分為客戶端層、反向代理nginx層、站點層、服務層、資料層。什麼是負載均衡負

每天一個python段子（1）：xpath

暫時設定為填空題，有興趣的可以按大綱自行補完～背景知識：版本 xpath的版本進化是不斷擴充套件的過程，所以基本語法是通用的。如果需要在刁鑽的的場景下使用，就得用心研究下不同版本的用法

TensorFlow2.0（1）：基本資料結構—張量

1 引言 TensorFlow2.0版本已經發布，雖然不是正式版，但預覽版都發布了，正式版還會遠嗎？相比於1.X，2.0版的TensorFlow修改的不是一點半點，這些修改極大的彌補了1.X版本的反人類設計，提升了框架的整體易用性，絕對好評！不多說了，趕緊來學習一波吧，做最先吃螃蟹的那一批人！先從Ten

Redis學習筆記（1）：Redis的說明與安裝

sets cti ansi c sde pos AR bsd 學習 ash Redis學習筆記（1）：Redis說明的安裝說明什麽是Redis REmote DIctionary Server(Redis) 是一個由Salvatore Sanfilippo寫的key-v

Why Java Sucks and C# Rocks（1）：比較的意義與目的

訊息釋出之後，許多朋友都表示對我這個主題的關注——無論是正面還是負面的——這讓我很高興。不過說實話，我原本並沒有打算寫這篇文章。我原本的打算是從一開始就進行技術方面的討論，但是大家在前文的反饋讓我把一些問題想得更清楚了，也認識到有些東西可能需要先說在前面可以有更好的效果。希望各位朋友可以繼續給我一些反饋，這樣

javaIO（1）：OutputStream和FileOutputStream原始碼分析及“裝飾者模式”在IO中的應用

前言一，IO體系從現在起，我們將基於JDK1.8詳細介紹java.io包中的關於輸入輸出有關的類。瞭解過這個包的都知道，裡面的類繼承關係錯綜複雜，光是弄清楚這些類的關係就夠喝一壺的了。說實話，我也沒有什麼好的方法來一下子就能弄清這些類，但是如果你瞭解“裝

python實戰（1）：簡單的資料採集與分析

相關推薦