1. 程式人生 > >團隊-爬取豆瓣電影top250-模塊開發過程

團隊-爬取豆瓣電影top250-模塊開發過程

rds tps tde 轉換 /usr sub bigger pen 其他

項目托管平臺地址:https://gitee.com/nothingbigger/DouBantop250

開發模塊功能:

  完善爬取功能、補全獲取數據的漏洞,開發時間:1天

  

#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding(utf8)
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt

#得到頁面全部內容
def askURL(url):
    request = urllib2.Request(url)#
發送請求 try: response = urllib2.urlopen(request)#取得響應 html= response.read()#獲取網頁內容 #print html except urllib2.URLError, e: if hasattr(e,"code"): print e.code if hasattr(e,"reason"): print e.reason return html #獲取相關內容 def getData(baseurl): findLink
=re.compile(r<a href="(.*?)">)#找到影片詳情鏈接 findImgSrc=re.compile(r<img.*src="(.*jpg)",re.S)#找到影片圖片 findTitle=re.compile(r<span class="title">(.*)</span>)#找到片名 #找到評分 findRating=re.compile(r<span class="rating_num" property="v:average">(.*)</span>)
#找到評價人數 findJudge=re.compile(r<span>(\d*)人評價</span>) #找到概況 findInq=re.compile(r<span class="inq">(.*)</span>) #找到影片相關內容:導演,主演,年份,地區,類別 findBd=re.compile(r<p class="">(.*?)</p>,re.S) #去掉無關內容 remove=re.compile(r |\n|</br>|\.*) datalist=[] for i in range(0,10): url=baseurl+str(i*25) html=askURL(url) soup = BeautifulSoup(html) for item in soup.find_all(div,class_=item):#找到每一個影片項 data=[] item=str(item)#轉換成字符串 #print item link=re.findall(findLink,item)[0] data.append(link)#添加詳情鏈接 imgSrc=re.findall(findImgSrc,item)[0] data.append(imgSrc)#添加圖片鏈接 titles=re.findall(findTitle,item) #片名可能只有一個中文名,沒有外國名 if(len(titles)==2): ctitle=titles[0] data.append(ctitle)#添加中文片名 otitle=titles[1].replace(" / ","")#去掉無關符號 data.append(otitle)#添加外國片名 else: data.append(titles[0])#添加中文片名 data.append( )#留空 rating=re.findall(findRating,item)[0] data.append(rating)#添加評分 judgeNum=re.findall(findJudge,item)[0] data.append(judgeNum)#添加評論人數 inq=re.findall(findInq,item) #可能沒有概況 if len(inq)!=0: inq=inq[0].replace("","")#去掉句號 data.append(inq)#添加概況 else: data.append( )#留空 bd=re.findall(findBd,item)[0] bd=re.sub(remove,"",bd) bd=re.sub(<br>," ",bd)#去掉<br> bd=re.sub(/," ",bd)#替換/ #data.append(bd) words=bd.split(" ") for s in words: if len(s)!=0 and s!= :#去掉空白內容 data.append(s) #主演有可能因為導演內容太長而沒有 if(len(data)!=12): data.insert(8, )#留空 datalist.append(data) return datalist

遇到的問題及問題解決方法:

  主要去發現別人開發模塊時程序存在的的漏洞,並且予以糾正

其他補充說明:

  無

  

團隊-爬取豆瓣電影top250-模塊開發過程