2-6-1 應用案例：爬取豆瓣 TOP250 電影資訊並存儲（版本：py3）——學習筆記

阿新 • • 發佈：2019-02-13

爬取電影名稱、連結並寫入檔案

import urllib.request as urlrequest
from bs4 import BeautifulSoup
import time #休息時間
import random #為了時間隨機

top250_url="https://movie.douban.com/top250?start={}&filter="

with open('C:/Users/feng_jlin/Desktop/douban_250.txt','w') as outputfile:
    
     for i in range(10):
            start = i*25
            url_visit = top250_url.format(start)
            crawl_content = urlrequest.urlopen(url_visit).read()
            http_content = crawl_content.decode('utf8')
            soup = BeautifulSoup(http_content,'html.parser')
            
            all_item_divs = soup.find_all(class_='item')
            
            for each_item_div in all_item_divs:
                    pic_div=each_item_div.find(class_='pic')
                    item_href=pic_div.find('a')['href']
                    item_name=pic_div.find('img')['alt']

                    outputfile.write('{}  {}\n'.format(item_href,item_name))
                    print('{}   {}\n'.format(item_href,item_name))

現在把他修改為，需要爬去電影詳情，若無則從TOP250頁面爬取相關資料

# -*- coding:utf-8 -*

import urllib.request as urlrequest
from bs4 import BeautifulSoup
import time #休息時間
import random #為了時間隨機
import bs4   #注意點1：引入模組

#item_href 連結
#item_name 名稱
#all_attrs_divs 主演
#movie_type_join 電影型別
#score_soup_divs 電影評分

top250_url = "https://movie.douban.com/top250?start={}&filter=" #top250的連結
movie_url = "https://movie.douban.com/subject/{}/" #movie進去詳情頁面

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} #表頭防封，360瀏覽器

with open('C:/Users/feng_jlin/Desktop/douban_250.txt','w',encoding='utf8') as outputfile: #開啟本地儲存CSV檔案
    
     for i in range(10): #一共250個，一頁25個，共10頁，這個則是迴圈10頁
            start = i*25 #設定放在連結{}中的start
            url_visit = top250_url.format(start)
            
            req_url_visit = urlrequest.Request(url=url_visit, headers=headers) #將防封表頭寫入連結
            crawl_content = urlrequest.urlopen(req_url_visit).read() #讀取連結
            
            http_content = crawl_content.decode('utf8') #因為有中文，把格式改為utf8
            soup = BeautifulSoup(http_content,'html.parser') #用beautifulsoup解析網頁
            
            all_item_divs = soup.find_all(class_='item') #找到所有class=item，形成all_item_divs的列表
            
            for each_item_div in all_item_divs: #進行列表迴圈
                
                pic_div = each_item_div.find(class_='pic') #找到pic
                item_href = pic_div.find('a')['href'] #找到a中的href連結
                item_name=pic_div.find('img')['alt'] #找到電影名稱
                    
                https, blank , web, subject, doubanID ,other = item_href.split('/') #分割/得到豆瓣ID
                    
                movie_url_visit = movie_url.format(doubanID) #movie詳情頁連結補充完整
                try:
                    req_movie_url_visit = urlrequest.Request(url=movie_url_visit, headers=headers) #將防封表頭寫入連結
                    movie_crawl_content = urlrequest.urlopen(req_movie_url_visit).read() #讀取連結
                    
                    movie_http_content = movie_crawl_content.decode('utf8') #因為有中文，把格式改為utf8
                    movie_soup = BeautifulSoup(movie_http_content,'html.parser') #用beautifulsoup解析網頁
                    
                    #獲取主演
                    all_actor_divs = movie_soup.find(class_='actor')
                    if isinstance(all_actor_divs,bs4.element.Tag) == True: #上面actor類別為空的話下一步會出錯，所以用isinstance過濾空TAG，避免錯誤
                        all_attrs_divs = all_actor_divs.find(class_='attrs').get_text() #可以用split('/')分出列表，但本次不需要 
                    else:
                        all_attrs_divs = "空"
                    
                    type_soup_divs = movie_soup.find_all(property="v:genre") #獲取電影型別
                    movie_type = [] #重置
                    for i in range(0,len(type_soup_divs)):
                        movie_type.append(type_soup_divs[i].get_text()) #獲取get_text()文字，去除tag，放到一個新的列表中
                    movie_type_join = '/'.join(movie_type) #join連線列表中的元素
                    
                    score_soup_divs = movie_soup.find(class_="ll rating_num").get_text() #獲取電影評分
                    
                    outputfile.write('{}  {}  {}  {}  {}\n'.format(item_href,item_name,movie_type_join,score_soup_divs,all_attrs_divs))
                    print('{}  {}  {}  {}  {}\n'.format(item_href,item_name,movie_type_join,score_soup_divs,all_attrs_divs))
                    
                    time_interval = random .uniform(1,5) #隨機1-5秒停止
                    time.sleep(time_interval)  # wait some time, trying to avoid google forbidden (of crawler)
                        
                except urlrequest.HTTPError as err:
                    other_attrs_divs = re.findall('主演: (.*?)<br/>',str(each_item_div),re.S) #正則抓取TOP250頁面的主演
                    other_type_join = re.findall('主演: .*?<br/>.*?/.*?/.(.*?)\n.*?</p>',str(each_item_div),re.S) #正則抓取TOP250頁面的型別
                    other_score_div = re.findall('<span class="rating_num" property="v:average">(.*?)</span>',str(each_item_div),re.S) #正則抓取TOP250頁面的電影評分
                
                    
                    if not len(other_attrs_divs): #以防有些內容為空，無法爬取
                        other_attrs_divs.append('空')
                    print(other_attrs_divs)
                    
                    if not len(other_type_join):
                        other_type_join.append('空')
                    print(other_type_join)
    
                    if not len(other_score_div):
                        other_score_div.append('空')
                    print(other_score_div)
                    
                    outputfile.write('{}  {}  {}  {}  {}\n'.format(item_href,item_name,other_type_join[0],other_score_div[0],other_attrs_divs[0]))
                    print('{}  {}  {}  {}  {}\n'.format(item_href,item_name,other_type_join[0],other_score_div[0],other_attrs_divs[0]))
                    continue #防中間爬取的20頁為空，判斷若有錯不跳出，繼續

outputfile.close()
print('OK')

2-6-1 應用案例：爬取豆瓣 TOP250 電影資訊並存儲（版本：py3）——學習筆記

爬取電影名稱、連結並寫入檔案 import urllib.request as urlrequest from bs4 import BeautifulSoup import time #休息時間 import random #為了時間隨機 top250_url="htt

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

《團隊-爬取豆瓣Top250電影-團隊-階段互評》

溝通爬取 top 負責負責任完成好的電影責任學號：2015035107080得分：9.8原因：認真完成任務，與組員相互溝通交流，相互協作。學號：2015035107152得分：9.6原因：為人誠實謙虛，能吃苦耐勞，敏而好學，積極尋找答案。學號：201503

團隊-爬取豆瓣Top250電影-團隊-階段互評

尋找爬取編程階段豆瓣 top 積極領導耐心學號：2015035107001得分：8.5 原因：有耐心，較為認真學號：2015035107004得分：9.6 原因：結對編程夥伴，負責學號：2015035107080得分：10 原因：領導性較強，認真負責，樂

python爬蟲--爬取豆瓣top250電影名

python爬蟲--爬取豆瓣top250電影名關於模擬瀏覽器登入的header，可以在相應網站按F12調取出編輯器，點選netwook，如下：以便於不會被網站反爬蟲拒絕。 1 import requests 2 from bs4 import BeautifulSoup

python scrapy框架爬取豆瓣top250電影篇一代理編寫

爬蟲偽裝: UA中介軟體編寫 settings設定 from scrapy import signals import base64 import random class my_useragent(object): def process_req

python scrapy框架爬取豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中環境 windows7 mongodb4.0 mongodb安裝教程設定具體引數在管道里面寫具體引數開啟settings 設定引數測試開始–結果程式碼 import pymongo from douban.

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書資訊

我們將要爬取哪些資訊：書名、連結、評分、一句話評價…… 1. 爬取單個資訊我們先來嘗試爬取書名，利用之前的套路，還是先複製書名的xpath：得到第一本書《追風箏的人》的書名xpath如下： //*[@id=

Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

爬蟲的一般思路：抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析：使用谷歌瀏覽器開發者工具分析網頁的請求測試：測試URL請求中每個引數的作用，找出控制翻頁等功能的引數重複：多次重複

Python3.5：爬取網站上電影數據

x64 沒有 () nbsp 運行 lpar target __init__ doc 首先我們導入幾個pyhton3的庫: from urllib import requestimport urllibfrom html.parser import HTMLParser 在

爬蟲+詞雲：爬取豆瓣電影top100的導演制作圖雲

ray 爬取 open tex 下載頁面 down app zhong form 前段時間做了一個關於豆瓣電影的爬蟲，之後又寫了一個陳奕迅歌詞的詞雲制作，於是我想不如做一個關於豆瓣高分電影導演的詞雲試試，於是有了接下來這篇隨筆。首先，我需要知道豆瓣top100電影詳情頁面

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

Scrapy ：爬取培訓網站講師資訊

Scrapy 框架 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy 使用

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

開啟專案裡的items.py檔案，定義如下變數， import scrapy from scrapy import Item,Field class DoubanItem(scrapy.Item): # define the fields for your it

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

Python爬蟲練習三：爬取豆瓣電影分類排行榜

目標網址url: https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action= 使用谷歌瀏覽器的檢查

爬蟲學習之11：爬取豆瓣電影TOP250並存入資料庫

本次實驗主要測試使用PyMySQL庫寫資料進MySQL，爬取資料使用XPATH和正則表示式，在很多場合可以用XPATH提取資料，但有些資料項在網頁中沒有明顯特徵，用正則表示式反而反而更輕鬆獲取資料。直接上程式碼：from lxml import etree impo

[8]個人學習python：爬取豆瓣首頁所有圖片

程式碼如下：# -*- coding: utf-8 -* import urllib.request,socket,re,sys,os savepath=r'C:\\Users\\Administrator\\PycharmProjects\\untitled\\venv1\

python爬蟲：爬取豆瓣讀書某個tag下的書籍並存入excel

#-*- coding: UTF-8 -*- import sys import time import urllib import urllib2 import requests #import numpy as np from bs4 import BeautifulS

2-6-1 應用案例：爬取豆瓣 TOP250 電影資訊並存儲（版本：py3）——學習筆記

爬取電影名稱、連結並寫入檔案

相關推薦