(7)Python爬蟲——爬取豆瓣電影Top250
阿新 • • 發佈:2019-01-11
利用python爬取豆瓣電影Top250的相關資訊,包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容,然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下:
#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt
#得到頁面全部內容
def askURL (url):
request = urllib2.Request(url)#傳送請求
try:
response = urllib2.urlopen(request)#取得響應
html= response.read()#獲取網頁內容
#print html
except urllib2.URLError, e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason
return html
#獲取相關內容
def getData(baseurl):
findLink=re.compile(r'<a href="(.*?)">')#找到影片詳情連結
findImgSrc=re.compile(r'<img.*src="(.*jpg)"',re.S)#找到影片圖片
findTitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
#找到評分
findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>' )
#找到評價人數
findJudge=re.compile(r'<span>(\d*)人評價</span>')
#找到概況
findInq=re.compile(r'<span class="inq">(.*)</span>')
#找到影片相關內容:導演,主演,年份,地區,類別
findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
#去掉無關內容
remove=re.compile(r' |\n|</br>|\.*')
datalist=[]
for i in range(0,10):
url=baseurl+str(i*25)
html=askURL(url)
soup = BeautifulSoup(html, "html.parser")
for item in soup.find_all('div',class_='item'):#找到每一個影片項
data=[]
item=str(item)#轉換成字串
#print item
link=re.findall(findLink,item)[0]
data.append(link)#新增詳情連結
imgSrc=re.findall(findImgSrc,item)[0]
data.append(imgSrc)#新增圖片連結
titles=re.findall(findTitle,item)
#片名可能只有一箇中文名,沒有外國名
if(len(titles)==2):
ctitle=titles[0]
data.append(ctitle)#新增中文片名
otitle=titles[1].replace(" / ","")#去掉無關符號
data.append(otitle)#新增外國片名
else:
data.append(titles[0])#新增中文片名
data.append(' ')#留空
rating=re.findall(findRating,item)[0]
data.append(rating)#新增評分
judgeNum=re.findall(findJudge,item)[0]
data.append(judgeNum)#新增評論人數
inq=re.findall(findInq,item)
#可能沒有概況
if len(inq)!=0:
inq=inq[0].replace("。","")#去掉句號
data.append(inq)#新增概況
else:
data.append(' ')#留空
bd=re.findall(findBd,item)[0]
bd=re.sub(remove,"",bd)
bd=re.sub('<br>'," ",bd)#去掉<br>
bd=re.sub('/'," ",bd)#替換/
#data.append(bd)
words=bd.split(" ")
for s in words:
if len(s)!=0 and s!=' ':#去掉空白內容
data.append(s)
#主演有可能因為導演內容太長而沒有
if(len(data)!=12):
data.insert(8,' ')#留空
datalist.append(data)
return datalist
#將相關資料寫入excel中
def saveData(datalist,savepath):
book=xlwt.Workbook(encoding='utf-8',style_compression=0)
sheet=book.add_sheet('豆瓣電影Top250',cell_overwrite_ok=True)
col=('電影詳情連結','圖片連結','影片中文名','影片外國名',
'評分','評價數','概況','導演','主演','年份','地區','類別')
for i in range(0,12):
sheet.write(0,i,col[i])#列名
for i in range(0,250):
data=datalist[i]
for j in range(0,12):
sheet.write(i+1,j,data[j])#資料
book.save(savepath)#儲存
def main():
baseurl='https://movie.douban.com/top250?start='
datalist=getData(baseurl)
savapath=u'豆瓣電影Top250.xlsx'
saveData(datalist,savapath)
main()
Excel表部分內容如下: