1. 程式人生 > >python爬蟲入門---獲取某一網站所有超鏈接

python爬蟲入門---獲取某一網站所有超鏈接

獲取 req 服務 encoding fin cep int turn href

需要先安裝requests庫和bs4庫

import requests
from bs4 import BeautifulSoup

def getHTMLText(url):
    try:
        #獲取服務器的響應內容,並設置最大請求時間為6秒
        res = requests.get(url, timeout = 6)
        #判斷返回狀態碼是否為200
        res.raise_for_status()
        #設置真正的編碼
        res.encoding = res.apparent_encoding
        #
返回網頁HTML代碼 return res.text except: return 產生異常 #目標網頁 url = https://www.cnblogs.com/huwt/ demo = getHTMLText(url) #解析HTML代碼 soup = BeautifulSoup(demo, html.parser) #模糊搜索HTML代碼的所有<a>標簽 a_labels = soup.find_all(a) #獲取所有<a>標簽中的href對應的值,即超鏈接 for a in a_labels:
print(a.get(href))

python爬蟲入門---獲取某一網站所有超鏈接