Python爬蟲+ pyqt5(從零開始到爬取教務處新聞，課程表，成績)

阿新 • • 發佈：2019-01-28

前言：

剛開始以為Python爬蟲很高深，其實，當你模仿其他人的程式碼，敲了一遍之後，你8成就可以理解Python的基本爬蟲了。

無論是學習什麼事情，剛開始就要準備好利器工具，那樣我們才能開始我們的旅程。工欲善其事，必先利其器麻！

Python的安裝:點選開啟連結我下載的是3.5 你也可以下載其他版本的

Pycharm(是IDE)安裝:點選開啟連結

另外最好用火狐瀏覽器，檢視除錯好點。

（一）好啦，準備好了，就讓我們寫一個最基本爬蟲，爬取一個網頁的圖片。

我們就爬這個網頁的所有圖片

先按F12，再按F5檢視,如下圖

再點選對應的網頁

這樣我們獲取網頁的基本資訊已經都做完了，就可以敲程式碼了。注意：程式碼要對齊，不然pycharm會報錯。

#匯入正則模組  用於匹配
import re
#匯入請求模組  向網頁請求的
import urllib.request
 
#通過url獲取網頁     def 這是一個函式定義頭  getHtml函式名    url函式引數
def getHtml(url):
    """			
    通過url獲取html地址		#函式說明
    :param url:
    :return: html
    """
	#headers 網頁的請求頭 防止反爬蟲（騙伺服器，是瀏覽器在請求，而不是機器人在請求）  在對應的網頁 按F12除錯檢視
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
    }
	#請求 返回req
    req = urllib.request.Request(url, headers =headers)
    #開啟req返回一個網頁
	html = urllib.request.urlopen(req).read()
    return html

#通過正則表示式來獲取圖片地址，並下載到本地
def getImg(html):
    """
    根據reg獲取圖片，並下載到本地
    :param html:
    :return: imglist
    """
	# 定義圖片正則 規則
    reg = r'src="(.+?\.jpg)"'
	#匹配
    imgre = re.compile(reg)
	#找到圖片列表
    imglist = re.findall(imgre, html)
	#x圖片編號
    x = 1
    for imgurl in imglist:
        print(imgurl)
        #通過urlretrieve函式把資料下載到本地的D:\\images，所以你需要建立目錄
        urllib.request.urlretrieve(imgurl, './images/'+'%s.jpg'%x)
        x = x + 1
    return imglist

def get():
	
    html = getHtml("https://tieba.baidu.com/p/5680688545")
    #記得加上這句 不然會亂碼 編碼格式看網頁原始碼 大部分 utf-8 gbk json
    html = html.decode('utf-8')
    print(html)
    print(getImg(html))

if  __name__ == "__main__":
    get()

裡面加了好多註釋，程式碼是很短的，實際程式碼也只有十幾行。另外我忘了加入Sleep函數了，加上的話會變慢，不過這樣能夠保證持續爬取，如果過快爬取的話，伺服器會認為你頻繁訪問而暫停你的請求。

會爬一個網頁的圖片就可以爬多個網頁了。

其實很簡單，只需要加工for迴圈不斷改變gethtml裡面的url的地址，不同的url對應不同的網頁，就可以實現爬取不同網頁的圖片了。

下面我舉個栗子，你們自己再試著去模仿下哈：

import re
import urllib.request
import urllib.error
from urllib.request import urlopen
import os
import operator
import time
#通過url獲取網頁
def getHtml(url):
    """
    通過url獲取html地址
    :param url:
    :return: html
    """
    # 用於模擬http頭的User-agent
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
    }

    req = urllib.request.Request(url, headers =headers)
    try:
        page = urlopen(req)
    except urllib.error as e:
        print(e)
    print(222)
    html = page.read().decode('utf-8')
    return html


#通過正則表示式來獲取圖片地址，並下載到本地
def getImg(html):
    """
    根據reg獲取圖片，並下載到本地
    :param html:
    :return: imglist
    """
    reg = r'src="(.+?\.jpg)"'
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x=1        #圖片編號
    for imgurl in imglist:
        print(imgurl)
        #通過urlretrieve函式把資料下載到本地的D:\\images，所以你需要建立目錄
        while os.path.exists('./images/'+'%s.jpg'%x):
            x = x + 1
        if (operator.eq(imgurl,'https://ws1.sinaimg.cn/large/7e8b4ac8ly1fqdb6j1r9jj208202ijs9.jpg') !=1 ) & (operator.eq(imgurl,'https://ws1.sinaimg.cn/large/7e8b4ac8ly1fqdb6j9jfij208202ijs8.jpg')!=1):
            urllib.request.urlretrieve(imgurl, './images/'+'%s.jpg'%x)
        x = x + 1
    return imglist
def geturl(dir):

    y = 1
    while y >= 1:
        if y == 1:
            try:
                html = getHtml("http://aladd.net/archives/" + str(dir) + ".html")
            except:
                y = y + 1
                continue
            imglist = getImg(html)
            print("http://aladd.net/archives/" + str(dir) + ".html")
        else:
            try:
                html = getHtml("http://aladd.net/archives/" + str(dir + y-1) + ".html")
            except:
                y = y + 1
                continue
            imglist = getImg(html)
            print("http://aladd.net/archives/" + str(dir + y-1) + ".html")
        y = y + 1

def get():

    global x
    dir =32400        #第幾個網頁號
    while dir>=1:
        aaa=geturl(dir)
        print(aaa)
        dir = dir +1

if  __name__ == "__main__":
    get()

程式碼寫得很亂，程式碼就沒註釋了，第一個栗子基本都有解釋了。

這兩個簡單的例子就讓我對python產生了濃厚的興趣，於是我就想到一件有趣的事情，就是爬取我們學校教務處的資訊。

（二）爬取教務處資訊

(1)爬取教務處的新聞

1.到教務處頁面上

先按F12在按F5，點選一個類別的新聞。

檢視訊息頭，看到對應的請求網址。

緊接著，我們滑鼠右擊，檢視網頁原始碼去檢視你要爬取的資料在那些標籤中。

接著我們按下一頁，觀察請求網址，我可以發現是有規律變化的。

然後我們就可以開始爬取新聞了。

   sessions = requests.session()    #這個設為全域性的sessioins，下面我們講的模擬登入也用的是同一個sessions
    i = 1       #對應第1頁資訊
    page = '_' + str(i)
    if i == 1:
        newsMainUrl = 'http://jwc.dgut.edu.cn/dglgjwc/jwtz/list2_wh.shtml'
    elif i != 1:
        newsMainUrl = 'http://jwc.dgut.edu.cn/dglgjwc/jwtz/list2_wh' + page + '.shtml'

    newsMainHeader = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Encoding': 'gzip,deflate',
        'Cache-Control': 'max-age=0',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
        'Host': 'cas.dgut.edu.cn',
        'Referer': 'http://jwc.dgut.edu.cn/',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0'
    }
    #get 請求
    rsp = sessions.get(newsMainUrl, headers=newsMainHeader)
    #獲取網頁
    content = rsp.content.decode('utf-8')
    #soup用來解析網頁的
    soup = BeautifulSoup(content, 'html.parser')
    #獲取所有dvi 並且calss為con-right fr"的標籤
    dvs = soup.find_all('div', class_="con-right fr")

    for dv in dvs:
        #獲取div中所有的a標籤
        items = dv.find_all('a')
        tds = dv.find_all('td', width="22%")
        for item in items:
            print(item.contents)
        for td in tds:
            print(td.text)

上面我們獲取了一個類別的所有新聞之後，就可以爬取不同類別的新聞了，這跟爬取一個網址的所有圖片和爬取多個網址的圖片是相同的道理的。

發現沒，每個類別的網址只有一處地方不同。

我們可以用一個列表來儲存不同之處

type = ['jwtz', 'kwtz', 'xjtz', 'jytz', 'sjtz']

每個類別的第1頁是這樣的，newstype：0對應就是教務通知(jwtz)，1就是考務通知(kwtz)

newsMainUrl = 'http://jwc.dgut.edu.cn/dglgjwc/' + str(type[newsType]) + '/list2_wh.shtml'

第2頁起是這樣的

newsMainUrl = 'http://jwc.dgut.edu.cn/dglgjwc/' + str(type[newsType]) + '/list2_wh' + page + '.shtml'

具體實現你們可以自己去動手試試，我就不展現程式碼了。

(2)登入教務處，爬取課表，成績表

1.用request模擬登入教務處

我們學校有兩個登入頁面，第一個登入頁面是真正的提交表單的介面，第二登入介面就把表單提交到第一個登入頁面。

先開啟第一個登入頁面

這是第二個登入頁面

要先按F12，再按F5進入除錯模式，再把學號，密碼填入，點選登入

查詢Post的網頁，不過我這裡找不到Post的頁面，因為它提交的真正的登入頁之後就不見了。

我找了好幾天，偶然在網速慢的時候，看到了那個post網頁，才發現那是第一個登入網頁的網址，額，找了那麼久，竟然就在眼前。

這個找到的真正的登入頁面

這是登入頭,和請求頭

def loginHtml(USER, PWD):
    #登入真正的網址  這個要按登入按鈕後  查看錶單提交到哪  （這個我是找了好久的，原因是表單不是提交到當前的登入頁面）
    loginUrl = 'https://cas.dgut.edu.cn/home/Oauth/getToken/appid/jwxt.html'
    #登入頭
    loginHeader = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Encoding': 'gzip,deflate,br',
        'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
        'Cache-Control': 'max-age=0',
        'Connection': 'keep-alive',
        'Host': 'cas.dgut.edu.cn',
        'Referer': 'https://jwxt.dgut.edu.cn/login?appid=jwxt',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0'
    }
    #表單
    dat = {'username': USER, 'password': PWD, '_token_': '3c47f66f3bfba8c07b39773094c98c01'}
    #提交資料的 用post
    rsp = sessions.post(loginUrl, headers=loginHeader, data=dat)
    print(rsp.json()['code'])  #用這個判斷是否登入成功  返回1成功  返回4失敗

這樣就模擬登入成功了，其實就是將資料提交真正的url，這就要你學會去查詢。

2.登入了之後，我們就可以爬取成績表了。

我們上面用的是request的sessions,這個攜帶了登入的資訊（以後我不論是get還是post都用同一個sessions）。

點選對應的成績頁面。

在點選訊息頭

接著點選引數

好了至此，我們已經把資料都準備好了。

開始我們的爬蟲時間。

import requests
from bs4 import BeautifulSoup

def getScore():
    
    #成績url
    scoreUrl = 'http://jwxt.dgut.edu.cn/dglgjw/student/xscj.stuckcj_data.jsp'
    #成績請求頭
    scoreHeader = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Encoding': 'gzip,deflate',
        'Connection': 'keep-alive',
        'Content-Length': '158',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
        'Cookie': 't_jwc_session=2|1:0|10:1526973050|13:t_jwc_session|16:MjAxNjQxNDA0MTA2|941e8dcc1b909a4634a529d225f016e7adc134714b50997332dad4e4c8420a22; _xsrf=2|131f13d9|35f809a60aa929ed7069f856a1854f99|1526973050; JWC_SERVERID=jwc1; JSESSIONID=60B287A3AD7A501C71462CD64F1F7392; JWXT_HA=ha15',
        'Host': 'cas.dgut.edu.cn',
        'Referer': 'http://jwxt.dgut.edu.cn/dglgjw/student/xscj.stuckcj.jsp?menucode=JW130706',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'
    }
    #成績資料表單
    scoreData = {
        'fx': '1',
        'fxC': 'on',
        'menucode_current': '',
        'pjwchckcjklpbcj': '0',
        'sjxz': 'sjxz3',
        'sjxzS': 'on',
        'xn': str(year1.value()),
        'xn1': str(year1.value()+1),
        'xq': str(term.currentIndex()),
        'xypjwchcnckcj': '0',
        'ysyx': 'yscj',
        'ysyxS': 'on',
        'zx': '1',
        'zxC': 'on'
    }
    #提交表單
    rsp = sessions.post(scoreUrl, headers=scoreHeader, data=scoreData)
    #得到成績網址得內容
    content = rsp.content.decode('gbk')
    #用soup解析html，相當於篩選你要的資料
    soup = BeautifulSoup(content, 'html.parser')    
        #按列 獲取成績表格的內容
    for tr in soup.findAll('tr'):        #成績在tr td 標籤中
        tds = tr.findAll('td')
        print(tds)

好了，這樣成績表的基本資訊已經實現了。

3.下面我們可以模仿上面爬取成績表的方式爬取課程表。

不過獲取課程表的方式是get，不用提交資料, 是查詢字串的方式

點選課程表的網頁看它的訊息頭

再看它的查詢字串

在點選17-18第一學期

16-17第二學期

從上面我們可以看出規律

17-18學年用y代表 w為上學期(即第一學期) x為下學期

16-17學年用i代表 w為上學期(即第一學期) x為下學期

緊接著我們檢視它的響應原始碼（即課程表的原始碼）。找到你要爬取的資訊的標籤。

那麼，準備工作已經做完了，我們就開始我們的表演吧。

    #yearTmp是  上面對應 'y' 或 'i' ,或者其他(具體看網頁的原始碼)

  #termTmp是學期   值為'w' 或者 'x'

    courseUrl = 'http://jwxt.dgut.edu.cn/dglgjw/student/wsxk.xskcb10319.jsp?params=eG49MjAxN' + yearTmp + 'Z4cT0' + termTmp + 'JnhoPTIwMTYwMDAwMzk4MQ=='

    courseHeader = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Encoding': 'gzip,deflate',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
        'Cookie': 't_jwc_session=2|1:0|10:1527066371|13:t_jwc_session|16:MjAxNjQxNDA0MTA2|63f0b2477c712ec247910d86933fae49a2413b6609d7863d75473268b6b94d43; _xsrf=2|cd61f852|b2a45a7624b0f21a67f08c3b347d6550|1527066371; JWC_SERVERID=jwc1; JSESSIONID=F147E34F9039F4F1920D8406C5973E0F; JWXT_HA=ha14',
        'Host': 'cas.dgut.edu.cn',
        'Referer': 'http://jwxt.dgut.edu.cn/dglgjw/student/xkjg.wdkb.jsp?menucode=JW130501',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0'
    }

    rsp = sessions.get(courseUrl, headers=courseHeader)
    content = rsp.content.decode('gbk')

    soup = BeautifulSoup(content, 'html.parser')    #獲取課程名
    labels = soup.findAll('font')

    for i in range(len(labels)):  # lables儲存所有font裡面的內容       
        print(labels[i].contents[0])
    labels = soup.findAll('div', class_='div_nokb')
    for j in range(len(labels)):
        print(labels[j].get('id'))

    ct = soup.find_all('div', style='padding-bottom:5px;clear:both;')
    for k in range(len(ct)):
        print(ct[k].contents[1])

另外我先說下re爬取正則的的簡單使用。

用(.*?)替換你要爬取的資訊

比如

pa = re.compile(r'font-weight: bolder\'>(.*?)</font')  #注意'用改為 \' 這是轉義字元
courseName = re.findall(pa, content)     #content是對應的html

這樣就可以獲取課程名稱了

(三)用pyqt5將上面爬取的資料展現出來

爬取了資料，想著pyqt5還可以做成介面(當然之前我是學了點基本的qt知識)，於是我就開始用pyqt5了

由於程式碼比較亂，所以這裡只能給出效果圖了：

以上就是我學了10幾天Python的一些收穫，歡迎大家一起學習。(V●ᴥ●V)

目前爬取成績和課表的存在一個問題，那就是每次都要在headers中新增Cookie的值,這就要去網頁上手動複製Cookie到程式碼中(如果沒新增就會出錯)。我不知道為什麼會這樣，因為我已經用了登入的sessions了，為什麼還是獲取不了成績！？

希望有大神能夠指點指點。

Python爬蟲+ pyqt5(從零開始到爬取教務處新聞，課程表，成績)

前言：剛開始以為Python爬蟲很高深，其實，當你模仿其他人的程式碼，敲了一遍之後，你8成就可以理解Python的基本爬蟲了。無論是學習什麼事情，剛開始就要準備好利器工具，那樣我們才能開始我們的旅程。工欲善其事，必先利其器麻！Python的安裝:點選開啟連結我下載的是

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

Python3從零開始爬取今日頭條的新聞【一、開發環境搭建】

首先，安裝好我們爬網所需的開發環境，我的開發環境如下： win7 x64中文版本系列演示過程所用到的python環境以及第三方庫： python 3.6.5 Anaconda預安裝 sele

Python3從零開始爬取今日頭條的新聞【五、解析頭條視訊真實播放地址並自動下載】

本文目錄：1.目標2.實現參考資料： 1.目標本文目標是自動解析頭條的視訊新聞，通過第三方解析網站得到其真實的下載地址並自動下載到本地 *至於如何通過py自動解析、檢視大咖個人中心的視訊頁籤內容

大神教你如果學習Python爬蟲如何才能高效地爬取海量數據

Python 爬蟲分布式大數據編程 Python如何才能高效地爬取海量數據我們都知道在互聯網時代，數據才是最重要的，而且如果把數據用用得好的話，會創造很大的價值空間。但是沒有大量的數據，怎麽來創建價值呢？如果是自己的業務每天都能產生大量的數據，那麽數據量的來源問題就解決啦，但是沒有數

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

需要 tis tca wcf 爬取 html eas request 有用 1.環境 python3.6 需要用到的庫： re、os、requests 2.簡介王者榮耀可以算得上是比較受歡迎的手遊之一了，應該有不少的人都入坑過農藥，我們今天的目的就是要爬取王者榮耀的高

Python爬蟲初探 - selenium+beautifulsoup4+chromedriver爬取需要登錄的網頁信息

-- pro tag bug gui 結果 .com 工作 ges 目標之前的自動答復機器人需要從一個內部網頁上獲取的消息用於回復一些問題，但是沒有對應的查詢api，於是想到了用腳本模擬瀏覽器訪問網站爬取內容返回給用戶。詳細介紹了第一次探索python爬蟲的坑。準備工作

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

2018/10/29 1.所思所想：雖然自己的考試在即，但工作上不能有半點馬虎，要認真努力，不辜負期望。中午和他們去吃飯，算是吃飯創新吧。下午爬了雞西的網站，還有一些欄位沒爬出來，正則用的不熟悉，此時終於露出端倪，心情不是很好。。明天上午把正則好好看看。 2.工作： [1].哈爾濱：html p

Python爬蟲系列之小說網爬取

今日爬蟲—小說網再次宣告所有爬蟲僅僅為技術交流，沒有任何惡意，若有侵權請☞私信☚ 此次爬取由主頁爬取到各本小說地址，然後通過這些地址獲取到小說目錄結構，在通過目錄結構獲取章節內容，同時以小說名字為資料夾，每一個章節為txt文字儲存到本地。話不多說，直接上程式碼

Python爬蟲實戰 requests+beautifulsoup+ajax 爬取半次元Top100的cos美圖

1.Python版本以及庫說明 Python3.7.1 Python版本urlencode 可將字串以URL編碼，用於編碼處理bs4 解析html的利器re 正則表示式，用於查詢頁面的一些特定內容requests 得到網頁html、jpg等資源的

Python爬蟲入門之豆瓣短評爬取

採用工具pyCharm，python3，工具的安裝在這就不多說了，之所以採用python3是因為python2只更新維護到2020年。新建python專案 File-Settings-project interpreter，點右上角+號，安裝requests，lx

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

Python爬蟲(二十)_動態爬取影評信息

type 8.0 out span none function title hot output 本案例介紹從JavaScript中采集加載的數據。更多內容請參考:Python學習指南 #-*- coding:utf-8 -*- import requests imp

python爬蟲學習筆記分析Ajax爬取果殼網文章

有時在使用requests抓取頁面會遇到得到的結果與在瀏覽器中看到的結果不一樣，在瀏覽器檢查元素中可以看到的正常的顯示的網頁資料，但是requests請求得到的結果卻沒有。這是因為requests請求得到的時原始的html文件，而瀏覽器中的介面確實經過JavaScript處理資料生成的結果

推薦｜23個Python爬蟲開源專案程式碼：爬取微信、淘寶、豆瓣、知乎、微博等

今天為大家整理了23個Python爬蟲專案。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有連結指向GitHub，祝大家玩的愉快 1、WechatSogou [1]– 微信公眾號爬蟲。基於搜狗微信搜尋的微信公眾號爬蟲介面，可以擴充套件成基於搜狗搜尋的爬

python爬蟲——模擬登入教務系統爬取成績

主要思路 1.模擬登入到教務處，獲取登入的cookie值，用獲取到的cookie值，訪問成績的網址，分析成績頁面，獲取成績資訊。 2.打包成exe檔案，方便使用，我們可以用自己寫的程式快速查詢我們的成績，速度要比正常登入教務處網址查詢快很多，也比超級課程表

Python爬蟲分享(一天可爬取500萬以上的視訊)

PornHubBot原始碼地址：https://github.com/xiyouMc/WebHubBotPornHubBot專案主要是爬取全球最大成人網站PornHub的視訊標題、時長、mp4連結、封面URL和具體的PornHub連結專案爬的是PornHub.com，結構簡單

PYTHON爬蟲——必應圖片關鍵詞爬取

這段時間在實習，在做一些各大網站圖片爬取的工作，基本告一段落，現在分別對百度圖片，google圖片，並應（Bing）圖片三個網站的圖片搜尋結果進行爬取和下載。首先通過爬蟲過程中遇到的問題，總結如下： 1、一次頁面載入的圖片數量各個網站是

Python爬蟲學習_多程序爬取58同城

思路：有多個頻道（類別），每個頻道下有多個商品連結，每個商品都有詳情頁。先將頻道連結中的多個商品連結爬下來放入資料庫中，再從資料庫中取出來每一個商品詳情頁連結，進行詳情頁中的資訊爬取首先是channel_extact.py,爬取不同頻道的連結 from bs4 impo

Python爬蟲+ pyqt5(從零開始到爬取教務處新聞，課程表，成績)

（一）好啦，準備好了，就讓我們寫一個最基本爬蟲，爬取一個網頁的圖片。

（二）爬取教務處資訊

(1)爬取教務處的新聞

1.到教務處頁面上

先按F12在按F5，點選一個類別的新聞。

檢視訊息頭，看到對應的請求網址。

接著我們按下一頁，觀察請求網址，我可以發現是有規律變化的。

上面我們獲取了一個類別的所有新聞之後，就可以爬取不同類別的新聞了，這跟爬取一個網址的所有圖片和爬取多個網址的圖片是相同的道理的。

發現沒，每個類別的網址只有一處地方不同。

我們可以用一個列表來儲存不同之處

第2頁起是這樣的

(2)登入教務處，爬取課表，成績表

1.用request模擬登入教務處

2.登入了之後，我們就可以爬取成績表了。

3.下面我們可以模仿上面爬取成績表的方式爬取課程表。

(三)用pyqt5將上面爬取的資料展現出來

相關推薦