用python做一個可以下載電影天堂最新電影的爬蟲
阿新 • • 發佈:2019-02-07
前段時間剛剛看完了一個很厲害博主寫的爬蟲部落格,怕時間久了自己忘記有關東西,所以今天寫了一個簡單的爬蟲,也滿足一下自己一直對電影天堂的不滿
程式碼如下,由於程式碼很少,也沒有涉及動態網頁,所以不過多去做解釋。
# -*- coding:utf-8 -*-
import urllib2
import os
import re
url = 'http://www.ygdy8.net/html/gndy/dyzz/index.html' #這是電影天堂最新電影的網站
conent = urllib2.urlopen(url)
conent = conent.read()
conent = conent.decode('gb2312' ,'ignore').encode('utf-8','ignore')
#這個‘ignore’差點就忘了,主要是對一些可以忽略的引數進行編碼忽略,下午一直沒想起來總是出錯
pattern = re.compile ('<div class="title_all"><h1><font color=#008800>.*?</a>></font></h1></div>'+
'(.*?)<td height="25" align="center" bgcolor="#F4FAE2"> ' ,re.S)
items = re.findall(pattern,conent)#先把含有最新電影的網頁程式碼選出來,再進行下一次篩選
str = ''.join(items)
pattern = re.compile ('<a href="(.*?)" class="ulink">(.*?)</a>.*?<td colspan.*?>(.*?)</td>',re.S)
news = re.findall(pattern, str)
file = open('c:/new movie.txt','w')#建立一個txt檔案儲存爬到的電影名,簡介,下載頁面
file.write('最新電影:\n\n')
for j in news:
file.write('片名:'+j[1]+'\n'+'簡介:'+j[2]+'\n'+'下載地址:'+'http://www.ygdy8.net'+j[0]+'\n'+'\n')
file.close()
執行效果是在程式執行的時間把電影天堂裡最新的電影,儲存在檔案裡,不多說,上圖:
烏拉拉,再也不用忍受這個網站隨時彈出的垃圾遊戲廣告了,趕緊下載你喜歡的電影吧。~( ̄▽ ̄~)(~ ̄▽ ̄)~