初試Python爬蟲下載pdf

阿新 • • 發佈：2019-01-26

最近剛學完Boyd的Convex Optimization，真是對Boyd神佩服得五體投地。在他的lecture slides末尾發現原來還有進階課程Stanford的ee364b，那本convex optimization只包括了ee364a，然而ee364b沒有現成的完整slides一次性下載，只好寫個爬蟲挨個下載儲存slides，在ee364b裡的內容更加專業深入，估計實際很少用到。然後我把爬蟲的程式碼貼上來，還好他們的網頁結構比較簡單，程式碼量不大。下載好的檔案裡有些是空白的，回網站一查發現確實是他們沒有在裡面留東西，就這樣吧。

import requests
import re
import os
from bs4 import BeautifulSoup

def GetPage(url):
    page = requests.get(url)
    html = page.text
    return html

def GetList(html):
    soup = BeautifulSoup(html, "html5lib")
    list = soup.find_all(href=re.compile("lectures/"))
    pdfs = []
    for li in list:
        if (li.get('href'))[-4:] == ".pdf":
            pdfs.append(li.get('href'))
    return pdfs
    
def DownloadPdf(pdf,root_url):
    path = "C:/Users/Downloads/cvx/" + pdf[9:]
    urls = root_url + pdf
    r = requests.get(urls)
    f = open(path, "wb")
    f.write(r.content)
    f.close()
    return urls

url = "https://web.stanford.edu/class/ee364b/lectures.html"
root_url = "https://web.stanford.edu/class/ee364b/"
#print(GetList(GetPage(url)))
pdfs = GetList(GetPage(url))
for pdf in pdfs:
    print("Download finished: "+DownloadPdf(pdf, root_url))

還有計劃把Standford的cs224n的lecture slides下載下來慢慢看，就在這個程式碼的基礎上改吧

初試Python爬蟲下載pdf

初試Python爬蟲下載pdf

python爬蟲--下載煎蛋網妹子圖到本地

Python爬蟲下載whois server字典和whois自動化查詢

python爬蟲下載檔案

用python爬蟲下載20張圖片到本地

Python爬蟲 -下載百度貼吧圖片

python批量下載pdf

python 爬蟲下載網易歌單歌曲

零基礎Python爬蟲下載圖片 10分鐘搞定

初試python爬蟲之：豆瓣電影爬蟲

python爬蟲下載網站磁力連結

python爬蟲下載驗證碼或附件的方法

精通Python爬蟲框架Scrapy PDF下載

python批量下載色影無忌和蜂鳥的圖片爬蟲小應用

Python 爬蟲 Vimeo視頻下載鏈接

Python 爬蟲：把廖雪峰教程轉換成 PDF 電子書

python爬蟲之scrapy文件下載

網絡爬蟲學習軟件篇-Python(一)下載安裝（超詳細教程,傻瓜式說明）

python爬蟲模塊之HTML下載模塊

Python爬蟲之多線程下載豆瓣Top250電影圖片

初試Python爬蟲下載pdf

相關推薦