【python爬蟲】抓取連結網頁內的文字 (第一步 定位超連結文字)
阿新 • • 發佈:2019-01-06
第一步:
匯入模組
- >>> import re
- >>> from bs4 import BeautifulSoup
- >>> import urllib.request
-------------------------------------
第二步:
匯入網址
url = "http://zsb.szu.edu.cn/zbs.html"
-------------------------------------------------------------------------
第三步:
調動模組解析網址
>>> page = urllib.request.urlopen(url) #通過連結獲取整個網頁
>>> soup = BeautifulSoup(page,'lxml') #格式化排列
print(soup.prettify()) #打印出結構化的資料
第四步:
--------------------------------------------------------
-----------------------------------------------------------
下一步寫,模擬瀏覽器的規格
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
下一步,複製Xpath路徑
/html/body/div[5]/table/tbody/tr/td[2]/div[3]/div[1]/div[2]/a
-----------------------------------------------------------