python抓取豆瓣電影top250資訊

阿新 • • 發佈：2018-11-10

1、本博文中程式碼是轉載內容，原文章地址如下：

https://blog.csdn.net/submit66/article/details/78631342?utm_source=blogxgwz1

2、只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼

3、本篇博文涉及知識點如下：

①建立類、建立函式
②建立新執行緒
③用瀏覽器檢查網頁元素
④使用BeautifulSoup獲取網頁內容
⑤儲存網頁文字內容到本地檔案
⑥下載圖片
⑦時間戳

4、程式碼功能為獲取“豆瓣電影top250”頁面的摘要資訊，詳細程式碼如下（執行環境：win7 + python3）

import requests
from   bs4 import BeautifulSoup
import time
import os
import threading

'''
    定義一個類，屬性包含圖片的序號、名稱以及下載的url
'''
class Picture:
    def __init__(self,pic_num,pic_name,pic_url):
        self.pic_name = pic_name
        self.pic_url = pic_url
        self.pic_num = pic_num

'''
下載圖片，因為他比較耗時，所以將其放在子執行緒中
''' 

def download_picture(pic_list):
    #設定圖片儲存的目錄，雙反斜槓\\表示轉義“\”,實際的作用相當於'douban\pic\'
    file_dir = "douban\pic\\"
    #如果目錄不存在，就建立它
    if not os.path.isdir(file_dir):
        os.makedirs(file_dir)
    #下載圖片
    for index in range(len(pic_list)):
        try:
            #獲取圖片列表的單個元素
            pic_url = 
 pic_list[index]
            #設定圖片的名字，加上路徑是指在路徑下建立圖片
            filename = file_dir +str(pic_url.pic_num) + '_' + pic_url.pic_name + ".jpg"
            # "wb"表示以二進位制寫入檔案
            # 此處".content"表示以二進位制形式返回資料，下載圖片及音訊時需用此方式
            # 此處的timeout並不是指超過5秒沒下載完圖片就算超時，而是指5秒內伺服器沒有響應連線請求就超時
            with open(filename,'wb') as f_open:
                f_open.write(requests.get(pic_url.pic_url,timeout=5).content)
            #因為要下載250個圖片，如果長時間等待，看不出程式正常執行，此處每下載10個圖片在終端就提示一次
            if pic_url.pic_num % 10 == 0:
                print("已下載%d張圖片" % (pic_url.pic_num))
        except:
            print("下載失敗！")
            #pass表示不返回任何錯誤提示
            pass
    print("爬取耗時：",time.time().__float__() - cuttentTime.__float__(),'s')

# param 分頁網址的字尾，用於拼接
param = ''
# i 圖片下載的個數
i = 1
#時間戳，用於計算程式執行的時間
cuttentTime = time.time()
# pic_list 儲存圖片名字及圖片的下載地址
pic_list = []
while True:
    base_url = 'https://movie.douban.com/top250' + param
    my_response = requests.get(base_url,timeout = 5)
    #若頁面返回的狀態碼不是200，則顯示錯誤
    my_response.raise_for_status()
    response_string = my_response.text
    soup = BeautifulSoup(response_string,'lxml')
    #所有的電影資訊都在class為grid_view的ol標籤中
    ol_article = soup.find('ol',class_='grid_view')
    #每部電影對應一個li
    li_list = ol_article.find_all('li')
    #獲取電影的資訊
    for index in range(len(li_list)):
        div_item_info = li_list[index].find('div',class_='info')
        div_hd = div_item_info.find('div',class_='hd')
        div_bd = div_item_info.find('div',class_='bd')
        title_list = div_hd.find_all('span')
        #獲取電影名
        title_str = div_hd.find('span',class_='title').getText()
        #獲取電影別名
        if div_hd.find('span',class_='other'):
            alias_title_str = div_hd.find('span',class_='other').getText().\
                replace(' ','').replace(' ','').replace('/','',1)
        #獲取導演、演員、上映年、電影型別等資訊
        content_description_str = div_bd.p.getText().replace('                            ','\t\t').\
            replace('  ','').replace(' / ','/')
        #獲取評價星級
        rating_star = div_bd.div.find_all('span')[1].getText()
        #獲取評論數量
        comment_str = div_bd.div.find_all('span')[3].getText()
        #獲取一句話影評
        if div_bd.find('p',class_='quote'):
            quote_str =  div_bd.find('p',class_='quote').span.getText()
        #將抓取的資訊存入本地文件
        file_dir = "douban\\"
        if not os.path.isdir(file_dir):
            os.makedirs(file_dir)
        filename = file_dir + "douban250.txt"
        #此處的"encoding='utf-8'"，以utf-8編碼建立開啟檔案，為防止寫入檔案編碼錯誤
        with open(filename,'a',encoding='utf-8') as f_open:
            f_open.write("\n第%d個電影--------------------------------------" % (i))
            f_open.write("\n\n\t電影名稱：" + title_str)
            f_open.write("\n\t電影別名：" + alias_title_str)
            f_open.write("\n\t電影評星：" + rating_star)
            f_open.write("\n\t評價數量:" + comment_str)
            f_open.write("\n\t電影一句話總結：" + quote_str)
            f_open.write("\n\t電影大致內容資訊：" + content_description_str)
        #獲取圖片資訊
        div_pic = li_list[index].find('div',class_='pic')
        pic_list.append(Picture(i,div_pic.a.img.get('alt'),div_pic.a.img.get('src')))
        i += 1
    #獲取分頁資訊
    div_paginator = soup.find('div',class_='paginator')
    next_url = div_paginator.find('span',class_='next')
    #如果沒有link則退出while迴圈，用來判斷已經到達最後一頁
    if not next_url.link:
        break
    # 獲取link的某個屬性，可以使用get方法
    param = next_url.link.get('href')

'''
   在所有資料內容爬取完畢後開始一個新的執行緒下載圖片，這裡還非得用threading模組了，
   因為它開啟的派生執行緒在執行時候，主執行緒不會退出，直至派生執行緒執行完畢
   但是如果派生執行緒被設定為守護執行緒，即設定setDaemon為true的話，
   主執行緒退出派生執行緒也就不執行了（但是這個不是我們想要的）
   如果直接使用thread模組就會存在主執行緒提前退出派生執行緒無法執行完畢，導致下載失敗的情況
'''
#這裡我不明白原作者為什麼要開啟一個新執行緒去下載圖片，與直接批量下載圖片有什麼區別嗎，
# 此問題待以後學習更多執行緒相關的知識後再分析
try:
    threa_download = threading.Thread(target=download_picture,args=(pic_list,))
    threa_download.setDaemon(False)
    threa_download.start()
except:
    print('Error: unable to start thread')

python抓取豆瓣電影top250資訊

1、本博文中程式碼是轉載內容，原文章地址如下： https://blog.csdn.net/submit66/article/details/78631342?utm_source=blogxgwz1 2、只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼 3、本

Python：python抓取豆瓣電影top250

color nat gin else get 分頁技術分享 win .cn 一直對爬蟲感興趣，學了python後正好看到某篇關於爬取的文章，就心血來潮實戰一把吧。實現目標：抓取豆瓣電影top250，並輸出到文件中 1.找到對應的url：https://movie.d

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式，並將爬取到的資料（排名、電影名和電影海報網址）存入MySQL資料庫中。下面是完整程式碼：Ps：在執行程式前，先在MySQL中建立一個數據庫"pachong"。import pymysql import requests imp

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

[Python]抓取豆瓣電影列表的標題

使用Python2.7寫的指令碼，用來抓取豆瓣電影評分排行的標題。程式碼如下： #coding=utf-8 import urllib import re #匯入正則表示式庫 global x #全域性變數 x=1 url="http://ww

Scrapy入門例項(使用Scrapy抓取豆瓣電影top250榜單）

專案地址：https://github.com/yuanfuzhi/ScrapyDemo.git 一 Scrapy介紹與安裝 1， Scrapy介紹 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中

python爬取豆瓣電影top250

簡要介紹：爬取豆瓣電影top250上相關電影的資訊，包括影片連結、影片名稱、上映時間、排名、豆瓣評分、導演、劇情簡介。使用：requests、etree、xpath 1、檢視網頁資訊，確定爬取的內容，建立資料庫： class SpiderData(pe

Python爬取豆瓣電影Top250資料

初學pyhton，自己找個練手任務。爬取豆瓣電影top250，儲存為一個DataFrame資料格式，留待分析.(程式碼粗糙，留存） from bs4 import BeautifulSoup from urllib.request import url

用python爬取豆瓣電影TOP250獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。

python小白，第一次爬蟲，如有不對的地方還請多多指出。用BeautifulSoup獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。cur_url：每一頁的地址，例如：https://movie.douban.c

Python3 抓取豆瓣電影Top250

記憶碎片小蘿莉 range __name__ 黃金 pytho 摔跤吧奇跡 safari 利用 requests 抓取豆瓣電影 Top 250： import re import requests def main(url): global nu

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

Python網路爬蟲：利用正則表示式爬取豆瓣電影top250排行前10頁電影資訊

在學習了幾個常用的爬取包方法後，轉入爬取實戰。爬取豆瓣電影早已是練習爬取的常用方式了，網上各種程式碼也已經很多了，我可能現在還在做這個都太土了，不過沒事，畢竟我也才剛入門…… 這次我還是利用正則表示式進行爬取，怎麼說呢，有人說寫正則表示式很麻煩，很多人都不

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

[Python/爬蟲]利用xpath爬取豆瓣電影top250

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import r

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

初學python：用簡單的爬蟲爬取豆瓣電影TOP250的排名

一開始接觸到python語言，對它沒什麼瞭解。唯一知道的就是它可以用來寫爬蟲，去爬取網路上的資源。爬蟲是一種按照一定的規則，自動地抓取網路上的資訊的程式或者指令碼。所以當我對python有一定的瞭解後，我就想個寫個爬蟲來試試手。於是就有了這篇文章，用簡單的爬蟲爬取豆瓣電影TO

Python爬蟲，用於抓取豆瓣電影Top前100的電影的名稱

初步接觸python爬蟲(其實python也是才起步)，發現一段程式碼研究了一下，覺得還比較有用處，Mark下。上程式碼： #!/usr/bin/python #coding=utf-8 #Author: Andrew_liu #mender：cy "

python爬取豆瓣電影資訊

''' 用到的主要知識：(詳情見官方文件） 1. requests 2. BeautifulSoup 3. codecs 4. os ''' #-*-coding:utf-8 import requests from bs4 import Beautif

python抓取豆瓣電影top250資訊

1、本博文中程式碼是轉載內容，原文章地址如下：

2、只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼

3、本篇博文涉及知識點如下：

4、程式碼功能為獲取“豆瓣電影top250”頁面的摘要資訊，詳細程式碼如下（執行環境：win7 + python3）

相關推薦