Python爬蟲——爬取中國高校排名前100名並寫入MySQL

阿新 • • 發佈：2019-01-16

　　本篇分享講爬取中國高校排名前100名並將其寫入MySQL，這樣做的好處是：1.將資料存入資料庫，能永久利用；2.能利用資料庫技術做一些其他操作。爬取的網頁是:http://gaokao.xdf.cn/201702/10612921.html, 截圖如下（部分）：
　　
　　我們的程式在Linux平臺上執行，需要用到MySQL和Python中的MySQLdb模組，其中MySQLdb 是封裝MySQL訪問和操作的模組。我們的思路是：先利用urllib和BeautifulSoup爬取前100名的表格，返回list形式，再利用MySQLdb將list寫入資料中。
　　

def get_html(url):
        html = urllib.request.urlopen(url)  
        content = html.read()  
        html.close()
        soup = BeautifulSoup(content, "lxml" 
)      
        table = soup.find('tbody')
        count = 0 
        lst = []
        for tr in table.children:
            if isinstance(tr, bs4.element.Tag):
                td = tr('td')
                if count >= 2:
                    lst.append([td[i]('p')[0].string.replace('\n','').replace('\t' 
,'') for i in range(8) if i != 3])
                count += 1

        return lst

　　該段程式碼實現了爬取中國高校前100名的表格，並保留了名次、學校名稱、地區、總分、辦學型別、星級排名、辦學層次這7個欄位。其中的url即為開始提到的網站網址。

    url = 'http://gaokao.xdf.cn/201702/10612921.html'
    universities_lst = get_html(url)
    # 開啟資料庫連線
    db = MySQLdb.connect("localhost","root","147369","test",charset='utf8')
    # 使用cursor()方法獲取操作遊標 
    cursor = db.cursor()
    # 使用execute方法執行SQL語句
    cursor.execute("SET 
 NAMES utf8");
    cursor.execute("""create table university_rank(排名 int(3),高校 varchar(20),地區 varchar(10),總分 decimal(9,2),辦學型別 varchar(10),
                                        星級排名 varchar(8),辦學層次 varchar(40)) default charset = utf8""")
    for x in universities_lst:
        sql = "insert into university_rank values('%s','%s','%s','%s','%s','%s','%s')"%(x[0],x[1],x[2],x[3],x[4],x[5],x[6])
        cursor.execute(sql)
    db.commit()

    # 關閉資料庫連線
    db.close()  
    print("Create table already! Please check Mysql!")

　　該段程式碼將上述爬取的表格寫入MySQL資料庫中，先新建一張university_rank表格，再講值插入。我們可以去MySQL中檢視。
　　大學排名MySQL
　　這說明我們確實將爬取的高校排名寫入了MySQL，接下來我們就只需要對資料庫進行操作了，比如說我想知道在這前100中，每個省份的學校數量，可以通過以下命令實現：
　　 count group
　　從中我們可以，前100名中的高校中，北京最多，有19所，江蘇其次，11所，上海第三，有9所。當然，我們還可以用該資料庫做一些其他有趣的事情~~
　　

　　本次分享到此結束，如有不足之處，還往批評指正。
　　P.S.附上本篇分享的整個程式：
　　

'''
Created on Aug 16, 2017

@author: vagrant
'''
# -*- coding: UTF-8 -*-
import bs4
import MySQLdb
import urllib.request  
from bs4 import BeautifulSoup 

def get_html(url):
        html = urllib.request.urlopen(url)  
        content = html.read()  
        html.close()
        soup = BeautifulSoup(content, "lxml")      
        table = soup.find('tbody')
        count = 0 
        lst = []
        for tr in table.children:
            if isinstance(tr, bs4.element.Tag):
                td = tr('td')
                if count >= 2:
                    lst.append([td[i]('p')[0].string.replace('\n','').replace('\t','') for i in range(8) if i != 3])
                count += 1

        return lst

if __name__ == '__main__':
    url = 'http://gaokao.xdf.cn/201702/10612921.html'
    universities_lst = get_html(url)
    # 開啟資料庫連線
    db = MySQLdb.connect("localhost","root","147369","test",charset='utf8')
    # 使用cursor()方法獲取操作遊標 
    cursor = db.cursor()
    # 使用execute方法執行SQL語句
    cursor.execute("SET NAMES utf8");
    cursor.execute("""create table university_rank(排名 int(3),高校 varchar(20),地區 varchar(10),總分 decimal(9,2),辦學型別 varchar(10),
                                        星級排名 varchar(8),辦學層次 varchar(40)) default charset = utf8""")
    for x in universities_lst:
        sql = "insert into university_rank values('%s','%s','%s','%s','%s','%s','%s')"%(x[0],x[1],x[2],x[3],x[4],x[5],x[6])
        cursor.execute(sql)
    db.commit()

    # 關閉資料庫連線
    db.close()  
    print("Create table already! Please check Mysql!")

Python爬蟲——爬取中國高校排名前100名並寫入MySQL

Python爬蟲——爬取中國高校排名前100名並寫入MySQL

php從爬蟲爬取的txt檔案按行讀取並寫入儲存到excel，csv中

【Python爬蟲】從html裏爬取中國大學排名

python 爬蟲例項爬取中國大學排名

Python爬蟲 - 爬取百度html代碼前200行

使用Python爬取中國大學排名，並格式化對其輸出內容

Python爬蟲-爬取糗事百科段子

python爬蟲爬取頁面源碼在本頁面展示

python 爬蟲爬取證券之星網站

python爬蟲爬取海量病毒文件

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

python爬蟲——爬取古詩詞

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

簡易python爬蟲爬取boss直聘職位，並寫入excel

Python 爬蟲爬取微信文章

python爬蟲爬取QQ說說並且生成詞雲圖，回憶滿滿！

Python爬蟲爬取OA幸運飛艇平臺獲取數據

利用python爬蟲爬取圖片並且制作馬賽克拼圖

Python - 爬蟲爬取和登陸github

用Python爬蟲爬取豆瓣電影、讀書Top250並排序

Python爬蟲——爬取中國高校排名前100名並寫入MySQL

相關推薦