Python爬蟲，用於抓取豆瓣電影Top前100的電影的名稱

阿新 • • 發佈：2019-02-07

初步接觸python爬蟲(其實python也是才起步)，發現一段程式碼研究了一下，覺得還比較有用處，Mark下。
上程式碼：

#!/usr/bin/python
#coding=utf-8
#Author: Andrew_liu
#mender：cy
"""
一個簡單的Python爬蟲, 用於抓取豆瓣電影Top前100的電影的名稱
Anthor: Andrew_liu
mender：cy
Version: 0.0.2
Date: 2017-03-02
Language: Python2.7.12
Editor: JetBrains PyCharm 4.5.4
"""
import string
import 
 re
import urllib2
import time
class DouBanSpider(object) :
    """類的簡要說明
    主要用於抓取豆瓣Top100的電影名稱

    Attributes:
        page: 用於表示當前所處的抓取頁面
        cur_url: 用於表示當前爭取抓取頁面的url
        datas: 儲存處理好的抓取到的電影名稱
        _top_num: 用於記錄當前的top號碼
    """

    def __init__(self):
        self.page = 1
        self.cur_url = "http://movie.douban.com/top250?start={page}&filter=&type=" 

        self.datas = []
        self._top_num = 1
        print u"豆瓣電影爬蟲準備就緒, 準備爬取資料..."

    def get_page(self, cur_page):
        """
        根據當前頁碼爬取網頁HTML
        Args:
            cur_page: 表示當前所抓取的網站頁碼
        Returns:
            返回抓取到整個頁面的HTML(unicode編碼)
        Raises:
            URLError:url引發的異常
        """ 

        url = self.cur_url
        try:
            my_page = urllib2.urlopen(url.format(page=(cur_page - 1) * 25)).read().decode("utf-8")
        except urllib2.URLError, e:
            if hasattr(e, "code"):
                print "The server couldn't fulfill the request."
                print "Error code: %s" % e.code
            elif hasattr(e, "reason"):
                print "We failed to reach a server. Please check your url and read the Reason"
                print "Reason: %s" % e.reason
        return my_page

    def find_title(self, my_page):
        """
        通過返回的整個網頁HTML, 正則匹配前100的電影名稱

        Args:
            my_page: 傳入頁面的HTML文字用於正則匹配
        """
        temp_data = []
        movie_items = re.findall(r'<span.*?class="title">(.*?)</span>', my_page, re.S)
        for index, item in enumerate(movie_items):
            if item.find("&nbsp") == -1:
                temp_data.append("Top" + str(self._top_num) + " " + item)
                self._top_num += 1
        self.datas.extend(temp_data)

    def start_spider(self):
        """
        爬蟲入口, 並控制爬蟲抓取頁面的範圍
        """
        while self.page <= 4:
            my_page = self.get_page(self.page)
            self.find_title(my_page)
            self.page += 1

def main():
    print u"""
        ###############################
            一個簡單的豆瓣電影前100爬蟲
            Author: Andrew_liu
            mender: cy
            Version: 0.0.2
            Date: 2017-03-02
        ###############################
    """
    my_spider = DouBanSpider()
    my_spider.start_spider()
    fobj = open('/data/moxiaokai/HelloWorld/cyTest/blogcode/top_move.txt', 'w+')
    for item in my_spider.datas:
        print item
        fobj.write(item.encode("utf-8")+'\n')
        time.sleep(0.1)
    print u"豆瓣爬蟲爬取完成"

if __name__ == '__main__':
    main()

執行結果：

Python爬蟲，用於抓取豆瓣電影Top前100的電影的名稱

初步接觸python爬蟲(其實python也是才起步)，發現一段程式碼研究了一下，覺得還比較有用處，Mark下。上程式碼： #!/usr/bin/python #coding=utf-8 #Author: Andrew_liu #mender：cy "

python爬蟲，Scrapy爬取豆瓣電影《芳華》電影短評，分詞生成詞雲圖。

專案github地址：https://github.com/kocor01/scrapy_cloud Python版本為3.6 自己寫的簡單架構《python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成詞雲圖。》這個是用Scrapy框架重新實現的爬蟲

簡單Python爬蟲例項：抓取豆瓣熱映電影資訊

最近在學習Python爬蟲基礎，僅用部落格記錄下學習的過程。學習過程基於麥子學院的課程，感謝麥子學院，感謝Joey老師。那麼我們來看一下，怎麼抓取資料。Chrome瀏覽器有一個開發者工具，很適合檢視網頁原始碼，所以我們用Chrome。開啟之後是這樣：然後我們在網頁位址列輸入豆

Python爬蟲案例：抓取豆瓣程式設計類高評分書籍

對於很多正在學習計算機的朋友來說，選擇合適的學習材料是非常重要的。本文將通過 Python 來爬取豆瓣程式設計類評分大於 9.0 的書籍。此案例很適合入門爬蟲的朋友學習，總共也就 3 個函式。下圖是最終的結果：下面進入正題：一、採集源分析：首先我們

[Python/爬蟲]利用xpath爬取豆瓣電影top250

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import r

Python爬蟲之一：抓取貓眼電影TOP100

執行平臺： Windows Python版本： Python3.6 IDE： Sublime Text 其他工具： Chrome瀏覽器1. 抓取單頁內容瀏覽器開啟貓眼電影首頁，點選“榜單”，然後再點選”TOP100榜”，就能看到想要的了。接下來通過程式碼來獲取網頁的HTML

Python爬蟲入門 | 2 爬取豆瓣電影資訊

這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步瞭解爬蟲，跟著課程內容能自己爬取資源。看著文章，開啟電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~ 好啦，正式開始我們的第二節課《爬取豆瓣電影資訊

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

Python爬蟲實戰：抓取並儲存百度雲資源（附程式碼）

尋找並分析百度雲的轉存api 首先你得有一個百度雲盤的賬號，然後登入，用瀏覽器（這裡用火狐瀏覽器做示範）開啟一個分享連結。F12開啟控制檯進行抓包。手動進行轉存操作：全選檔案->儲存到網盤->選擇路徑->確定。點選【確定】前建議先清空一下抓包記錄，這樣可以精確定位到轉存的api，這就是

[Python爬蟲] 7-Charles抓取微信小程式

最近在嘗試抓取微信的小程式，用到了Charles，微信小程式的話需要使用HTTPS抓包，網上有些教程內容有步驟的缺失，所以重新整理一份傻瓜式的教程，環境WIN10+IOS，內容基於Roy_Liang前輩

一個月帶你入門Python爬蟲，輕鬆爬取大規模資料

Python爬蟲為什麼受歡迎如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，網

一個月入門Python爬蟲，輕鬆爬取大規模資料

這次作業選擇爬取的網站是噹噹網，噹噹有比較多的圖書資料，特別是五星圖書，包含了各個領域最受歡迎的圖書資訊，對於尋找有價值的圖書、分析好書的銷售情況具有一定的價值。最終爬取的資料如下，總共10000+行資料：我想爬取的資料是各分類（小說、中小學教輔、文學、成功/勵志……）下面的五星圖書資訊（書名、評論數、作者、

Python爬蟲實戰(3)-爬取豆瓣音樂Top250資料(超詳細)

前言首先我們先來回憶一下上兩篇爬蟲實戰文章：第一篇：講到了requests和bs4和一些網頁基本操作。第二篇：用到了正則表示式-re模組今天我們用lxml庫和xpath語法來爬蟲實戰。 1.安裝lxml庫 window：直接用pip去

Project 3 ：Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取

基於python3.6—pycharm編寫的，都已經除錯過了，歡迎大家提出交流意見。關於一些基礎的資料網頁分析（比如為什麼是這個url）沒有過多贅述，看不懂的自行百度。原始碼可以直接拷貝執行。轉載請註明來源。import requests import re ''' Pyt

Python爬蟲實戰之抓取淘寶MM照片（一）

背景 Python爬蟲系列教程的一次實戰，然而淘寶進行過頁面改版，現在已經沒有淘寶MM這個版面，取而代之的是淘女郎。改版後，頁面是使用JS渲染的，並不能直接通過url來切換頁碼。該系列教程後續講到

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書資訊

我們將要爬取哪些資訊：書名、連結、評分、一句話評價…… 1. 爬取單個資訊我們先來嘗試爬取書名，利用之前的套路，還是先複製書名的xpath：得到第一本書《追風箏的人》的書名xpath如下： //*[@id=

Python爬蟲一步步抓取房產資訊

嗯，這一篇文章更多是想分享一下我的網頁分析方法。玩爬蟲也快有一年了，基本程式碼熟悉之後，我感覺寫一個爬蟲最有意思的莫過於研究其網頁背後的載入過程了，也就是分析過程，對效能沒有特殊要求的情況下，程式設計一般是小事。以深圳地區的X房網為例吧。XX房網的主頁非常簡潔，輸入相

Python爬蟲三：抓取鏈家已成交二手房資訊（58W資料）

環境：Windows7+python3.6+Pycharm2017 目標：抓取鏈家北京地區已成交二手房資訊（無需登入），如下圖，戶型、朝向、成交時間價格等，儲存到csv。最後一共抓取約58W資料，程式執行8h。 --------全部文章：京東爬蟲、鏈家爬蟲、美團爬蟲、

字母數字窮舉排列組合域名，位數遞增，網路爬蟲，網頁抓取

List<List<string>> res = Generate("abcdefghijklmnopqrstuvwxyz0123456789-"); Console.WriteLine("Count = "

python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊

第一步，爬取所有圖書標籤及分類到達圖書標籤頁，分類瀏覽，第一步需要爬取所有分類及其分類下的所有標籤並用dict儲存需要解析的內容 1.bs4解析 import requests from bs4 import Beau

Python爬蟲，用於抓取豆瓣電影Top前100的電影的名稱

相關推薦