python根據標籤爬取網頁資訊
阿新 • • 發佈:2019-01-06
這裡以豆瓣TOP250為案例,爬取網頁資訊
import requests#python HTTP客戶端庫,編寫爬蟲和測試伺服器響應資料會用到的類庫 import re from bs4 import BeautifulSoup print('正在從豆瓣電影TOP250爬取資料……') # url網址 = 'https://movie.douban.com/top250?start=0' (第一頁) for page in range(10): url = 'https://movie.douban.com/top250?start='+str(page*25) print('-----------正在爬取第'+str(page+1)+'頁------') # 根據url網址獲取網頁原始碼 html=requests.get(url) html.raise_for_status() try: # 解析 HTML原始碼 soup=BeautifulSoup(html.text, 'html.parser') # 使用正則 表示式將網頁文字轉換成字串 soup=str(soup) # 該函式根據包含正則表示式的字串解析建立模式物件 title=re.compile(r'<span class="title">(.*)</span>') names = re.findall(title,soup) for name in names: #剔除’/‘後面的英文名(英文名特徵是含有’/‘) if name.find('/') == -1: print(name) except Exception as e: print(e) print("爬取完畢")