python爬蟲入門---第二篇：獲取2019年中國大學排名

阿新 • • 發佈：2019-02-08

time 中國 form htm sts odin 代碼網站 stat

我們需要爬取的網站：最好大學網

我們需要爬取的內容即為該網頁中的表格部分：

技術分享圖片

該部分的html關鍵代碼為：

技術分享圖片

其中整個表的標簽為<tbody>標簽，每行的標簽為<tr>標簽，每行中的每個單元格的標簽為<td>標簽，而我們所需的內容即為每個單元格中的內容。

因此編寫程序的大概思路就是先找到整個表格的<tbody>標簽，再遍歷<tbody>標簽下的所有<tr>標簽，最後遍歷<tr>標簽下的所有<td>標簽，

我們用二維列表來存儲所有的數據，其中二維列表中的每個列表用於存儲一行中的每個單元格數據，即<tr>標簽下的所有<td>標簽中的所有字符串。

代碼如下;

import requests
from bs4 import BeautifulSoup
import bs4

def get_html_text(url):
    ‘‘‘返回網頁的HTML代碼‘‘‘
    try:
        res = requests.get(url, timeout = 6)
        res.raise_for_status()
        res.encoding = res.apparent_encoding
        return res.text
    except:
        return ‘‘

def 
 fill_ulist(ulist, html):
    ‘‘‘將我們所需的數據寫入一個列表ulist‘‘‘

    #解析HTML代碼，並獲得解析後的對象soup
    soup = BeautifulSoup(html, ‘html.parser‘)
    #遍歷得到第一個<tbody>標簽
    tbody = soup.tbody
    #遍歷<tbody>標簽的孩子，即<tbody>下的所有<tr>標簽及字符串
    for tr in tbody.children:
        #排除字符串
        if isinstance(tr, bs4.element.Tag):
             
#使用find_all()函數找到tr標簽中的所有<td>標簽
            u = tr.find_all(‘td‘)
            #將<td>標簽中的字符串內容寫入列表ulist
            ulist.append([u[0].string, u[1].string, u[2].string, u[3].string])

def display_urank(ulist):
    ‘‘‘格式化輸出大學排名‘‘‘
    print("{:^10}\t{:^10}\t{:^10}\t{:^10}".format("排名", "大學名稱", "省市", "總分"))
    for u in ulist:
        print("{:^10}\t{:^10}\t{:^10}\t{:^10}".format(u[0], u[1], u[2], u[3]))

def write_in_file(ulist, file_path):
    ‘‘‘將大學排名寫入文件‘‘‘
    with open(file_path, ‘w‘) as file_object:
        file_object.write("{:^5}\t{:^6}\t{:^10}\t{:^10}\n".format("排名", "大學名稱", "省市", "總分"))
        for u in ulist:
            file_object.write("{:^5}\t{:^6}\t{:^10}\t{:^10}\n".format(u[0], u[1], u[2], u[3]))

def main():
    ‘‘‘主函數‘‘‘
    ulist = []
    url = ‘http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html‘
    file_path = ‘university rankings.txt‘
    html = get_html_text(url)
    fill_ulist(ulist, html)
    display_urank(ulist)
    write_in_file(ulist, file_path)

main()

打印顯示：

技術分享圖片

python爬蟲入門---第二篇：獲取2019年中國大學排名

time 中國 form htm sts odin 代碼網站 stat 我們需要爬取的網站：最好大學網我們需要爬取的內容即為該網頁中的表格部分：該部分的html關鍵代碼為：其中整個表的標簽為<tbody>標簽，每行的標簽為<tr&

Python 語言學習第二篇：數據類型（字符串）

拼接查找字符保留 upper gis 原始的一次 \n 處的字符串是一個有序的字符的不可變序列，用於存儲基於文本的信息。字符串所包含的字符存在從左至右的位置順序，不可以在原處（in-place）修改。Python沒有C語言的字符和字符串之分，只有字符串。從嚴格意義上

Python金融系列第二篇：簡單線性迴歸

作者：chen_h 微訊號 & QQ：862251340 微信公眾號：coderpai 第三篇：多元線性迴歸和殘差分析第四篇：現代投資組合理論第五篇：市場風險第六篇：Fama-French 多因子模型介紹在金融和經濟領域，大多數模型都是

python爬蟲入門教程(二)：開始一個簡單的爬蟲

爬蟲入門系列教程：　　上一篇講了開始爬蟲前的準備工作。當我們完成開發環境的安裝、IDE的配置之後，就可以開始開發爬蟲了。這一篇，我們開始寫一個超級簡單的爬蟲。 1.爬蟲的過程分析　　當人類去訪問一個網頁時，是如何進行的？　　①開啟瀏

python爬蟲入門教程(一)：開始爬蟲前的準備工作

爬蟲入門系列教程：前言　　學習python爬蟲也有一段時間了，各種爬蟲技術多多少少也接觸過一些。因為有學弟學妹說想學爬蟲，我萌生了寫個簡單的python爬蟲教程的想法。　　一來，給學弟學妹們提供方便，提供一個入門的渠道；二來，總結這些天自身所

ElasticSearch入門第二篇：叢集配置

ElasticSearch共有兩個配置檔案，都位於config目錄下，分別是elasticsearch.yml和logging.yml，其中，elasticsearch.yml 是全域性配置檔案，用於在伺服器級別對ElasticSearch進行配置。ElasticSearc

python 學習筆記第二篇：python如何連線mysql資料庫

任何一個程式都必然用到資料庫，不然資料沒法處理，之前我只是把python的開發環境部署了一下，但是隻是獨立的，沒法連線到資料庫，今天學習了一下python的步驟連線資料庫要首先映入模組pymysql;(以一個簡短的查詢來演示一下資料庫的連線) 1.下載地

Python爬蟲入門：使用urllib模組獲取請求頁面資訊

　　歡迎來到拖更王的小部落格，天天想著要把學習和工作中遇到的內容釋出到空間，但是因為忙總是忘（這個藉口真好）。以後還應該會堅持什麼時候想起來什麼時候更新的好習慣吧。　　今天說一下python爬蟲中一個常用的模組urllib，urllib和requests一樣都是用來發起頁面請求進行獲取頁面資訊

python爬蟲入門---第三篇：自動下載圖片

等待部分 app class 請您 pictures string fin from 適用的圖片網站：美桌 import requests import re import urllib from bs4 import BeautifulSoup def get_ht

python入門第二篇

indent 正序 space pla pac 列表總結 form spa python 有切片和叠片的兩種操作支持list 和tuple兩種數據類型 list: 第一種操作[0:1] :以第0個索引開始，到索引1 結束， [:] 什麽都沒有寫，則是從0開始。第二

python開發（第二篇）：初始python

登陸文件 windows == del pwd keyword 入門用c語言實現 erPython的種類： Cpython python的官方版本，使用C語言實現，使用最為廣泛，Cpython實現會將源文件（）（py文件）轉換成字節碼文件（pyc文件）然後運行再p

Python爬蟲入門：Urllib庫的基本使用

logs 模擬第一個 tps 出了訪問方式 post方式 %d 一段 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、

第二篇：Python安裝及環境變量的操作

系統變量執行第二篇解釋參數配置環境配置環境 usr 1.配置環境變量方法在計算機-屬性-高級系統設置-高級-環境變量-系統變量-path中追加Python軟件包的路徑補充:各個變量值是用;分隔的 2.環境變量配置後，在cmd中可直接輸入python來運行Pyt

Python爬蟲（一）：編寫簡單爬蟲之新手入門

最近學習了一下python的基礎知識，大家一般對“爬蟲”這個詞，一聽就比較熟悉，都知道是爬一些網站上的資料，然後做一些操作整理，得到人們想要的資料，但是怎麼寫一個爬蟲程式程式碼呢？相信很多人是不會的，今天寫一個針對新手入門想要學習爬蟲的文章，希望對想要學習的你能有所幫助~~廢話不多說，進入正文！

Python爬蟲（二）：爬蟲獲取資料儲存到檔案

接上一篇文章：Python爬蟲（一）：編寫簡單爬蟲之新手入門前言：上一篇文章，我爬取到了豆瓣官網的頁面程式碼，我在想怎樣讓爬取到的頁面顯示出來呀，爬到的資料是html頁面程式碼，不如將爬取到的程式碼儲存到一個檔案中，檔案命名為html格式，那直接開啟這個檔案就可以在瀏覽器上看到爬取資料的

python爬蟲入門之————————————————第四節--使用bs4語法獲取資料

1.裝備工作:模組安裝 1.1命令安裝方式：（開發環境:python3.6環境）官方文件：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.html 官方文件中文版：https://www.crummy.com/

小白入門Java開發第二篇：安裝IDEA+mysql+navicat

1、下載IDEA(我就是用的這個版本喲)：https://pan.baidu.com/s/1FcWUGD_iMpbktNvR4ZDNQQ 下載好了之後，安裝就下一步就好了（軟體目錄別放在C盤，百度看看具體步驟，穩點-老鐵） 2、下載mysql:https://pan.baidu.com/

python爬蟲入門(二)：Requests的使用

雖然Python有內建的urllib庫，可以實現網路的請求，但是我並不推薦。因為urllib在很多時候使用起來不方便，比如加一個代理，處理Cookie時API都很繁瑣，再比如傳送一個POST請求也很麻煩。而Requests就相當於urllib的升級版本，簡

python爬蟲入門一：爬蟲基本原理

1. 什麼是爬蟲爬蟲就是請求網站並提取資料的自動化程式 2. 爬蟲的基本流程 1）傳送請求通過HTTP庫向目標站點發送請求，即傳送一個Request。請求可以包含額外的headers等資訊，等待伺服器相應 2）獲取相應內容伺服器接到請求後，會返回一個Response，Re

python爬蟲入門七：pymysql庫

我們使用python爬取得到的資料，有時候會資料量特別大，需要存入資料庫。需要注意的是，MySQL是一種關係型資料庫管理系統，利用MySQL可以對資料庫進行操作，而MySQL並不是一個數據庫。而pymysql庫的作用就是在python中對MySQL進行操作。簡單來說，使用pymys

python爬蟲入門---第二篇：獲取2019年中國大學排名

相關推薦