Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

阿新 • • 發佈：2018-11-07

1.背景：

在爬取網頁中的過程中，我對目前爬蟲專案後端指令碼中拼接得到絕對路徑的方法很不滿意，今天很無意瞭解到在python3 的 urllib.parse模組對這個問題有著非常完善的解決策略，真的是上天有眼，感動！

2.urllib.parse模組

This module defines a standard interface to break Uniform Resource Locator (URL) strings up in components (addressing scheme, network location, path etc.), to combine the components back into a URL string, and to convert a “relative URL” to an absolute URL given a “base URL.”

根據Python官網文件，我們可以大致瞭解到這個模組的3個主要功能，一是將URL分解為各個部分，二是將URL各個部分拼接成URL，三是將一個相對路徑轉換成絕對路徑。

我們主要用它的第三個功能，使用的函式是

urllib.parse.urljoin(base, url, allow_fragments=True)

3.程式碼實現例子：

程式碼：

from urllib import parse

page_url = 'http://fcg.gxepb.gov.cn/ztzl/hjwfbgt/'
new_url = '../../hjzf/xzcf/201811/t20181102_46347.html'

new_full_url = parse.urljoin(page_url, new_url)
print(new_full_url)

結果為：

http://fcg.gxepb.gov.cn/hjzf/xzcf/201811/t20181102_46347.html

可以說是相當棒了！

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

1.背景：

2.urllib.parse模組

3.程式碼實現例子：

4.官方相關文件連結：

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

Python爬蟲實戰(三):簡單爬取網頁圖片

爬蟲練習之迴圈爬取網頁中全部連結(requsets同步)

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

Python爬蟲——爬取網頁中的圖片小試牛刀

Python爬蟲入門 | 6 將爬回來的數據存到本地

Python 爬取網頁中JavaScript動態添加的內容（二）

Python爬蟲系列 - 初探：爬取旅遊評論

Python 爬蟲簡單實現（爬取下載連結）

python爬蟲——40行程式碼爬取「筆趣看」全部小說你都看了嗎？

Python爬蟲系列 - 初探：爬取新聞推送

Python爬蟲實例：爬取B站《工作細胞》短評——異步加載信息的爬取

一起學爬蟲——使用Beautiful Soup爬取網頁！

一個月入門Python爬蟲學習，輕鬆爬取大規模資料

Python爬蟲框架：Scrapy 爬取伯樂線上實戰

Python 爬取網頁中JavaScript動態新增的內容（二）

Python 爬取網頁中JavaScript動態新增的內容（一）

python 爬蟲使用正則爬取51job內容並存入txt

python 爬蟲如何用selenium抓取網頁內容

python爬蟲【一】爬取文字

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

1.背景：

2.urllib.parse模組

3.程式碼實現例子：

4.官方相關文件連結：

相關推薦