Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

阿新 • • 發佈：2019-01-02

文章架構

arctile_schema

開發場景

在日常開發過程中，經常需要參考一些文件。對於線上文件，往往由於網速等原因，用起來總不是那麼（ma）順（fan）心。
開發工具
- Anaconda
- Python 2

實現方案

基於 bs4 模組標籤解析
- 爬取頁面，逐層獲取獲取子連結
- 棄用！未能有效獲取到當前主題以及子主題 href 並且不能保證獲取到的hrefs的順序與目錄層次結構相對應。
基於正則定位獲取連結
- 有效獲取所有 hrefs 並保證其順序與目錄層次結構的一致性。

程式碼實現

1 獲取主頁連結

# coding: utf-8

# ## 爬取 PyODPS[latest] 並轉換為 PDF 

# - 爬取主連結
# - 根據主連結爬取子連線
# - 參考子連結爬取HTML並轉換為PDF
# - 將所有 PDF 整合為一個PDF
# ---
# - 注 :
#     - PyOdps PDF線上最新版本
#         - 0.3.12

# In[15]:

import re
import pdfkit
import pandas as pd
from urllib import urlopen
from bs4 import BeautifulSoup

# 設定 pandas 顯示引數
pd.set_option('display.width',200)
pd.set_option('display.max_rows' 
,1000)
pd.set_option('display.max_columns',50)
pd.set_option('display.max_colwidth',500)


# ### 爬取主連結
# #### 爬取PyODPS Docs主頁面

# In[9]:

url='http://pyodps.readthedocs.io/zh_CN/latest/index.html'
html=urlopen(url).read().decode('utf8')
soup=BeautifulSoup(html,'lxml')


# #### 取值最新文件首頁 API及標題

# In[10]:

# 主連結 (API) 

api=soup.find(name='link', attrs={'rel':'canonical'}).get('href')
# 獲取文件標題
title=soup.find('link',attrs={"href":"#","rel":"top"}).get('title').replace(' ','_')

# 獲取首頁超連結 (href)
hrefs=[]
div_s=soup.find_all(name='div',attrs={'aria-label':'main navigation','role':'navigation'})[0]
for tag_a in div_s.find_all(name='a',attrs={'class':'reference internal'}):
    content_name=tag_a.get_text()
    url=api+tag_a.get('href')
    hrefs.append([content_name,url])


# #### 美化 DataFrame 顯示效果函式

# In[20]:

'''
設定懸停效果
'''
def hover(hover_color="#ffff99"):
    return dict(selector="tr:hover",
                props=[("background-color", "%s" % hover_color)])
'''
美化DataFrame顯示效果
'''
def display_prettify(df):
    from IPython.display import HTML

    styles = [
        hover(),
        dict(selector="th", props=[("font-size", "100%"),
                                   ("text-align", "center")]),
        dict(selector="td", props=[("text-align", "left")]),
        dict(selector="caption", props=[("caption-side", "left")])
    ]
    return df.style.set_table_styles(styles).set_caption("Hover to highlight.")


# #### 首頁超連線(href)列印顯示

# In[13]:

df=pd.DataFrame(hrefs, columns=['content_name','href'])

display_prettify(df)

2 參考主連結，獲取子連結

# ### 根據主連結爬取子連線

# In[ ]:

hrefs_2=[] # 有序列表，儲存主、子連結並與文件目錄層次結構保持一致性

for name,url in hrefs:
    if url not in [hf[1] for hf in hrefs_2]: # href 不在 hrefs_2中，則追加
        hrefs_2.append([name,url])
    t_html=urlopen(url).read().decode('utf8')

    # 根據正則表示式 查詢當前目錄主題
    f_re='<a class="current reference internal".*?</a><ul>(.*?)</ul>'
    if len(re.findall(f_re, t_html, re.I|re.S|re.M)) !=0 :
        target_s = re.findall(f_re, t_html, re.I|re.S|re.M)[0]

        # 根據正則表示式 獲取當前子主題連結
        t_re='<a class="reference internal" href="(.*?)">(.*?)</a>'
        for href,name in re.findall(t_re, target_s, re.I|re.S|re.M):
            if href.strip().endswith('.html'):
                hrefs_2.append([name,api+href])


# In[22]:

display_prettify(pd.DataFrame(hrefs_2))


# #### 顯示PyODPS 所有連結

# In[105]:

pd.DataFrame(hrefs_2)

3 根據連結，爬取頁面並轉換為 PDFs

# ### 參考子連結爬取HTML並轉換為PDF

# In[24]:

for name,href in hrefs_2:
    pdfkit.from_url(href,'./tmp/'+name+'.pdf')

from PyPDF2 import PdfFileMerger

# 建立 PdfFileMerger 物件，合併PDFs
merger = PdfFileMerger()
for name, url in hrefs_2:
    t_input = open('./tmp/'+name+'.pdf', 'rb')
    merger.append(t_input)

# 流輸出
output = open(title+".pdf", "wb")
merger.write(output)

# 關閉檔案流
output.close()
merger.close()

指令碼連結

Reference Links

Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

文章架構開發場景在日常開發過程中，經常需要參考一些文件。對於線上文件，往往由於網速等原因，用起來總不是那麼（ma）順（fan）心。開發工具 Anaconda Python 2 實現方案基於 bs4 模組標籤解析爬取

Python爬蟲系列之百度貼吧爬取

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法若有侵權，請私信刪除此次用到的一個解析庫Beautiful Soup，更輕量簡單地對資料進行解析，已獲得目標資料貼吧做的還是比較好，有一定的反爬機制，所以我們也應該有一定的應對措施

Python爬蟲模擬登入(四)：BeautifulSoup，爬取資料

登陸成功後爬取我們想要的資料；用到的庫：BeautifulSoupF12檢視網頁結構；程式碼，依次向下找節點；def getInfo(html): soup = BeautifulSo

python爬蟲系列(5.3-動態網站的爬取的策略)

一、認識動態網站所謂的動態網站,是使用ajax加載出來的網頁,我們開啟網頁的時候可以正常顯示內容,但是我們在顯示網頁原始碼的時候,裡面卻找不到該節點. 二、常見動態網站的抓取方式 1、直接分析ajax呼叫的介面,然後通過程式碼請求這個介面 2、採用模擬瀏覽器請求該動態網站,然後獲取

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

Python爬蟲學習之正則表達式爬取個人博客

9.png turn () htm parent ast string 則表達式 urn 實例需求：運用python語言爬取http://www.eastmountyxz.com/個人博客的基本信息，包括網頁標題，網頁所有圖片的url，網頁文章的url、標題以及摘要。實

爬蟲學習之14：多程序爬取簡書社會熱點資料儲存到mongodb

本程式碼爬取簡書社會熱點欄目10000頁的資料，使用多程序方式爬取，從簡書網頁可以看出，網頁使用了非同步載入，頁碼只能從response中推測出來，從而構造url，直接上程式碼：import re

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

Python 之父的解析器系列之四：視覺化 PEG 解析

原題 | Visualizing PEG Parsing 作者 | Guido van Rossum（Python之父）譯者 |

Python爬蟲系列之小說網爬取

今日爬蟲—小說網再次宣告所有爬蟲僅僅為技術交流，沒有任何惡意，若有侵權請☞私信☚ 此次爬取由主頁爬取到各本小說地址，然後通過這些地址獲取到小說目錄結構，在通過目錄結構獲取章節內容，同時以小說名字為資料夾，每一個章節為txt文字儲存到本地。話不多說，直接上程式碼

Python爬蟲系列之郵編區號爬取

Python爬蟲之<—>全國郵編區號爬取僅供交流探討歡迎提出改進程式碼部分 import re import requests import time import MySQLdb ''' @author:王磊 @time :201

python爬蟲學習筆記四：BeautifulSoup庫對HTML文字進行操作

只要你提供的資訊是標籤，就可以很好的解析怎麼使用BeautifulSoup庫？ from bs4 import BeautifulSoup soup=BeautifulSoup('<p>data<p>','html.parser'）例如： import

Python爬蟲系列之微信小程式實戰

Python爬蟲系列之微信小程式實戰基於Scrapy爬蟲框架實現對微信小程式資料的爬取首先，你得需要安裝抓包工具，這裡推薦使用Charles，至於怎麼使用後期有時間我會出一個事例最重要的步驟之一就是分析介面，理清楚每一個介面功能，然後連線起來形成介面串思路,再通

python程式設計入門之四：列表和元組

第四章列表和元組 4.1 建立一個列表我們之前學過c語言的同學都知道一個數據型別叫做陣列，但是陣列有一個硬性的要求，就是陣列內的資料型別必須一致，但由於python沒有資料型別，所以python便加入了一個強大的列表，並且幾乎可以向裡注入任何型別的元素。列

Python爬蟲系列之----Scrapy

一、環境 Windows10 64位 Python3.6.1 64位二、安裝Python3.x 點選進行安裝選擇新增到環境變數中去下一步點選安裝安裝成功測試是否安

Python爬蟲系列（四）（簡單）Dota排行榜爬取，並存入Excel表格

在編寫Python程式的時候，有很多庫供我們選擇，如urllib、requests，BeautifulSoup，lxml，正則表示式等等，使得我們在獲取網頁原始碼或者選擇元素的時候

python爬蟲入門（四）利用多執行緒爬蟲

#!/usr/bin/env python # -*- coding:utf-8 -*- # 使用了執行緒庫 import threading # 佇列 from Queue import Queue # 解析庫 from lxml import etree # 請求處理 impor

Python爬蟲系列之----Scrapy(一)爬蟲原理

一、Scrapy簡介 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。 Scrapy 使用 Twisted這個

python爬蟲系列之爬取百度文庫（一）

一、什麼是selenium 在爬取百度文庫的過程中，我們需要使用到一個工具selenium（瀏覽器自動測試框架），selenium是一個用於web應用程式測試的工具，它可以測試直接執行在瀏覽器中，就像我們平時用瀏覽器上網一樣，支援IE(7，8，9，10，11),firefo

python爬蟲實戰：利用pyquery爬取貓眼電影TOP100榜單內容-2

上次利用pyquery爬取貓眼電影TOP100榜單內容的爬蟲程式碼中點選開啟連結存在幾個不合理點。1. 第一個就是自定義的create_file（檔案存在判斷及建立）函式。我在後來的python檔案功能相關學習中，發現這個自定義函式屬於重複造輪子功能。因為 for data

Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

文章架構

開發場景

實現方案

程式碼實現

1 獲取主頁連結

2 參考主連結，獲取子連結

3 根據連結，爬取頁面並轉換為 PDFs

指令碼連結

Reference Links

相關推薦