1. 程式人生 > >【python爬蟲】抓取連結網頁內的文字 (第一步 定位超連結文字)

【python爬蟲】抓取連結網頁內的文字 (第一步 定位超連結文字)

第一步:

匯入模組

  1. >>> import re  
  2. >>> from bs4 import BeautifulSoup  
  3. >>> import urllib.request 

-------------------------------------

第二步:

匯入網址

url = "http://zsb.szu.edu.cn/zbs.html"

-------------------------------------------------------------------------

第三步:

調動模組解析網址

>>> page = urllib.request.urlopen(url) #通過連結獲取整個網頁

>>> soup = BeautifulSoup(page,'lxml') #格式化排列

print(soup.prettify()) #打印出結構化的資料

第四步:

--------------------------------------------------------


-----------------------------------------------------------

下一步寫,模擬瀏覽器的規格

 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

下一步,複製Xpath路徑

/html/body/div[5]/table/tbody/tr/td[2]/div[3]/div[1]/div[2]/a


-----------------------------------------------------------