1. 程式人生 > >用python做一個可以下載電影天堂最新電影的爬蟲

用python做一個可以下載電影天堂最新電影的爬蟲

前段時間剛剛看完了一個很厲害博主寫的爬蟲部落格,怕時間久了自己忘記有關東西,所以今天寫了一個簡單的爬蟲,也滿足一下自己一直對電影天堂的不滿

程式碼如下,由於程式碼很少,也沒有涉及動態網頁,所以不過多去做解釋。

# -*- coding:utf-8 -*-
import urllib2
import os
import re

url = 'http://www.ygdy8.net/html/gndy/dyzz/index.html'  #這是電影天堂最新電影的網站
conent = urllib2.urlopen(url)
conent =  conent.read()
conent = conent.decode('gb2312'
,'ignore').encode('utf-8','ignore') #這個‘ignore’差點就忘了,主要是對一些可以忽略的引數進行編碼忽略,下午一直沒想起來總是出錯 pattern = re.compile ('<div class="title_all"><h1><font color=#008800>.*?</a>></font></h1></div>'+ '(.*?)<td height="25" align="center" bgcolor="#F4FAE2"> '
,re.S) items = re.findall(pattern,conent)#先把含有最新電影的網頁程式碼選出來,再進行下一次篩選 str = ''.join(items) pattern = re.compile ('<a href="(.*?)" class="ulink">(.*?)</a>.*?<td colspan.*?>(.*?)</td>',re.S) news = re.findall(pattern, str) file = open('c:/new movie.txt','w')#建立一個txt檔案儲存爬到的電影名,簡介,下載頁面
file.write('最新電影:\n\n') for j in news: file.write('片名:'+j[1]+'\n'+'簡介:'+j[2]+'\n'+'下載地址:'+'http://www.ygdy8.net'+j[0]+'\n'+'\n') file.close()

執行效果是在程式執行的時間把電影天堂裡最新的電影,儲存在檔案裡,不多說,上圖:

該死的垃圾網站

本地檔案

烏拉拉,再也不用忍受這個網站隨時彈出的垃圾遊戲廣告了,趕緊下載你喜歡的電影吧。~( ̄▽ ̄~)(~ ̄▽ ̄)~