簡易爬蟲：爬取豆瓣電影top250

阿新 • • 發佈：2019-02-20

爬蟲目的說明：

此爬蟲簡單到不能再簡單了，主要內容就是爬取豆瓣top250電影頁面的內容，然後將該內容匯入了資料庫。下面先上結果圖：

mysql_spider

爬蟲部分程式碼：

def getlist(listurl, result):
    time.sleep(2)
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}
    res = requests.get(listurl, headers=headers)
    soup = BeautifulSoup(res.text, 'html.parser' 
)
    movielist = soup.select('.grid_view li')
    for m in movielist:
        rank = m.select('em')[0].text
        if len(m.select('.title')) > 1:
            english_name = m.select('.title')[1].text.strip().strip('/').strip()
        else:
            english_name = "No info"
        chinese_name = m.select('.title' 
)[0].text
        info_str = m.select('.info .bd p')[0].text.strip().replace(u'\xa0', u' ')
        info_list = info_str.split('\n')
        time_list = info_list[1].strip().split('/')
        movie_time = time_list[0].strip()
        movie_place = time_list[1].strip()
        movie_type = time_list[2].strip()
        director_list = info_list[0 
].strip(u'導演:').split('  ')
        director = director_list[0].strip()
        if len(director_list) > 1:
            main_actor = director_list[1].strip().strip(u"主演:").strip()
        else:
            main_actor = u"暫無資訊"
        if m.select('.inq'):
            comments = m.select('.inq')[0].text.strip()
        else:
            comments = 'None'
        movie.append(u'排名: ' + rank + '\n' + u'電影名: ' + chinese_name + '\n' +  u'導演: ' + director + '\n' +  u'主演: ' +
                     main_actor + '\n' + u'時間: ' + movie_time + '\n' + u'產地： '+ movie_place + '\n'+ u'型別： '
                     + movie_type + '\n' + u'評論: ' + comments + '\n')
        data_movies = (rank, chinese_name, english_name, director, main_actor, movie_time,
                       movie_place, movie_type, comments)
        result.append(data_movies)

    #獲取下一頁        
    if soup.select(u'.next a'):
        asoup = soup.select(u'.next a')[0][u'href']
        Next_page = lurl + asoup
        getlist(Next_page, result)
    else:
        print('Done')
    return result, movie

返回的resutl以及movie都是列表，result用來儲存儲存在資料庫中的內容，movie用來儲存寫入檔案中的內容。之所以分開儲存是因為，寫入檔案的每個元素都要加上諸如”導演“此類的說明詞彙，以便於理解;而資料庫已經有了列名，所以不需要這些說明詞彙。

資料庫匯入部分程式碼：

#連線資料庫
db = MySQLdb.connect(host="localhost", user="root", passwd="", db="spider", use_unicode=True, charset="utf8")
cursor = db.cursor()
cursor.execute("DROP TABLE IF EXISTS MOVIE")
sql = """CREATE TABLE MOVIE (
         RANK INT(4),
         CHINESE_NAME CHAR(100),
         ENGLISH_NAME CHAR(100),
         DIRECTOR CHAR(100),
         MAIN_ACTORS CHAR(100),
         TIME CHAR(100),
         PLACE CHAR(100),
         TYPE CHAR(100),
         COMMENT CHAR(100) )"""
cursor.execute(sql)

lurl = 'https://movie.douban.com/top250'
movie = []
result = []
result, movies = getlist(lurl, result)
print(len(result))
#插入獲取的內容到資料庫
cursor.executemany(
        """
        INSERT INTO MOVIE (RANK, CHINESE_NAME, ENGLISH_NAME, DIRECTOR, MAIN_ACTORS, TIME, PLACE, TYPE, COMMENT) 
        VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s)""",
        result
    )

db.commit()  #commit之後資料庫才會改動
cursor.close()
db.close()

Tips:

爬蟲部分：由於頁面顯示千差萬別，所以爬蟲部分程式碼最開始不要有對內容太細化的處理。
太細化的處理會導致某些小問題的出現，以至於爬蟲不能正常進行。
資料庫匯入部分：資料庫匯入出現的錯誤大多就是編碼錯誤，所以注意這些就行了。

簡易爬蟲：爬取豆瓣電影top250

爬蟲目的說明：此爬蟲簡單到不能再簡單了，主要內容就是爬取豆瓣top250電影頁面的內容，然後將該內容匯入了資料庫。下面先上結果圖：爬蟲部分程式碼： def getlist(listurl, result): time.sleep(2

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

爬蟲學習之11：爬取豆瓣電影TOP250並存入資料庫

本次實驗主要測試使用PyMySQL庫寫資料進MySQL，爬取資料使用XPATH和正則表示式，在很多場合可以用XPATH提取資料，但有些資料項在網頁中沒有明顯特徵，用正則表示式反而反而更輕鬆獲取資料。直接上程式碼：from lxml import etree impo

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

開啟專案裡的items.py檔案，定義如下變數， import scrapy from scrapy import Item,Field class DoubanItem(scrapy.Item): # define the fields for your it

一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

學習一門技術最快的方式是做專案，在做專案的過程中對相關的技術查漏補缺。本文通過爬取豆瓣top250電影學習python requests的使用。 1、準備工作在pycharm中安裝request庫請看上圖，在pycharm中依次點選：File->Settings。然後會彈出下圖的介面：點選2

【網路爬蟲】爬取豆瓣電影Top250評論

前言本爬蟲大致流程為：（1）分析網頁——分析網站結構（2）傳送請求——通過requests傳送請求（3）響應請求——得到請求響應的頁面（4）解析響應——分析頁面，得到想要的資料（5）儲存文字——以txt格式儲存使用環境 anaconda3 pyt

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

初學python：用簡單的爬蟲爬取豆瓣電影TOP250的排名

一開始接觸到python語言，對它沒什麼瞭解。唯一知道的就是它可以用來寫爬蟲，去爬取網路上的資源。爬蟲是一種按照一定的規則，自動地抓取網路上的資訊的程式或者指令碼。所以當我對python有一定的瞭解後，我就想個寫個爬蟲來試試手。於是就有了這篇文章，用簡單的爬蟲爬取豆瓣電影TO

爬蟲專案：requests爬取豆瓣電影TOP250存入excel中

這次爬取是爬取250部電影的相關內容，分別用了requests請求url，正則表示式re與BeautifulSoup作為內容過濾openpyxl作為excel的操作模組，本人為才學不久的新手，程式碼編寫有點無腦和囉嗦，希望有大神能多提建議首先，程式碼清單如下：

Python網路爬蟲：利用正則表示式爬取豆瓣電影top250排行前10頁電影資訊

在學習了幾個常用的爬取包方法後，轉入爬取實戰。爬取豆瓣電影早已是練習爬取的常用方式了，網上各種程式碼也已經很多了，我可能現在還在做這個都太土了，不過沒事，畢竟我也才剛入門…… 這次我還是利用正則表示式進行爬取，怎麼說呢，有人說寫正則表示式很麻煩，很多人都不

爬蟲+詞雲：爬取豆瓣電影top100的導演制作圖雲

ray 爬取 open tex 下載頁面 down app zhong form 前段時間做了一個關於豆瓣電影的爬蟲，之後又寫了一個陳奕迅歌詞的詞雲制作，於是我想不如做一個關於豆瓣高分電影導演的詞雲試試，於是有了接下來這篇隨筆。首先，我需要知道豆瓣top100電影詳情頁面

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250

所謂靜態頁面是指純粹的HTML格式的頁面，這樣的頁面在瀏覽器中展示的內容都在HTML原始碼中。目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：開啟目標網站，在網頁空白處點選滑鼠右

Python爬蟲練習三：爬取豆瓣電影分類排行榜

目標網址url: https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action= 使用谷歌瀏覽器的檢查

[python爬蟲入門]爬取豆瓣電影排行榜top250

要爬取內容的是豆瓣網的電影排行top250: https://movie.douban.com/top250, 將電影名和評分爬取下來並輸出, 如下圖: 使用了tkinter做了簡單頁面然後分析如何爬取內容: 首先爬取標題: 檢視原始碼後, 發現標

【go語言爬蟲】go語言爬取豆瓣電影top250

抓取欄位：電影名稱、評分、評價人數二、執行：正在抓取第0頁…… 肖申克的救贖 9.6 824764人這個殺手不太冷 9.4 791399人霸王別姬 9.5 589028人阿甘正傳 9.4 678850人美麗人生 9.5 3940

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

Scrapy爬蟲（4）爬取豆瓣電影Top250圖片

在用Python的urllib和BeautifulSoup寫過了很多爬蟲之後，本人決定嘗試著名的Python爬蟲框架——Scrapy. 本次分享將詳細講述如何利用Scrapy來下載豆瓣電影Top250, 主要解決的問題有：如何利用ImagesPi

[Python/爬蟲]利用xpath爬取豆瓣電影top250

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import r

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

簡易爬蟲：爬取豆瓣電影top250

爬蟲目的說明：

爬蟲部分程式碼：

資料庫匯入部分程式碼：

Tips:

相關推薦