1. 程式人生 > >Python爬蟲-利用正則表示式爬取貓眼電影

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影

===================================

=====================================================

 1 '''
 2 利用正則來爬去貓眼電影
 3 1. url: http://maoyan.com/board
 4 2. 把電影資訊儘可能多的拿下來
 5 
 6 分析
 7 1. 一個影片的內容是以dd開是的單元
 8 2. 在單元記憶體在一部電影的所有資訊
 9 
10 思路:
11 1. 利用re把dd內容都給找到
12 2. 對應找到的每一個dd,用re挨個查詢需要的資訊
13 14 方法就是三步走: 15 1. 把頁面down下來 16 2. 提取出dd單元為單位的內容 17 3. 對每一個dd,進行單獨資訊提取 18 ''' 19 20 21 from urllib import request 22 23 #1 下載頁面內容 24 url = "http://maoyan.com/board" 25 26 rsp = request.urlopen(url) 27 html = rsp.read().decode() 28 29 30 31 #2 按dd提取出內容來,縮小處理範圍 32 import re 33 34 s = r'<dd>(.*?)</dd>
' 35 36 pattern = re.compile(s, re.S) 37 38 films = pattern.findall(html) 39 print(len(films)) 40 41 42 43 #3. 從每一個dd中單獨提取出需要的資訊 44 for film in films: 45 46 # 提取電影名稱 47 s = r'<a.*?title="(.*?)"' 48 pattern = re.compile(s) 49 title = pattern.findall(film)[0] 50 print(title)