Python爬蟲-利用正則表示式爬取貓眼電影
阿新 • • 發佈:2018-12-08
利用正則來爬去貓眼電影
===================================
=====================================================
1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoyan.com/board 4 2. 把電影資訊儘可能多的拿下來 5 6 分析 7 1. 一個影片的內容是以dd開是的單元 8 2. 在單元記憶體在一部電影的所有資訊 9 10 思路: 11 1. 利用re把dd內容都給找到 12 2. 對應找到的每一個dd,用re挨個查詢需要的資訊13 14 方法就是三步走: 15 1. 把頁面down下來 16 2. 提取出dd單元為單位的內容 17 3. 對每一個dd,進行單獨資訊提取 18 ''' 19 20 21 from urllib import request 22 23 #1 下載頁面內容 24 url = "http://maoyan.com/board" 25 26 rsp = request.urlopen(url) 27 html = rsp.read().decode() 28 29 30 31 #2 按dd提取出內容來,縮小處理範圍 32 import re 33 34 s = r'<dd>(.*?)</dd>' 35 36 pattern = re.compile(s, re.S) 37 38 films = pattern.findall(html) 39 print(len(films)) 40 41 42 43 #3. 從每一個dd中單獨提取出需要的資訊 44 for film in films: 45 46 # 提取電影名稱 47 s = r'<a.*?title="(.*?)"' 48 pattern = re.compile(s) 49 title = pattern.findall(film)[0] 50 print(title)