1. 程式人生 > >Python2.7 爬蟲實踐:豆瓣電影影評分析

Python2.7 爬蟲實踐:豆瓣電影影評分析

  #避免uncode出現在雲圖,所以我直接將結果儲存為str
    for i in range(10):
        num = i + 1
        if pageNum >0 :
            start =(num-1) * 20
        else:
            return False
        reqUrl='https://movie.douban.com/subject/' + movieId + '/comments' +'?' +'start=' + str(start) + '&limit=20'
        print reqUrl
        resp = urlopen(reqUrl)
        html = resp.read().decode('utf-8')
        #print html
        soup = bs4.BeautifulSoup(html,"html.parser")
        comContent = soup.find_all('div',id='comments')
        #print comContent
        commentStr=comContent[0].find_all('div',class_ ='comment')
        commentList =[]
        comments=''
        for comment in commentStr:
            c = comment.find_all('p')[0].string
            if c is not None:
                commentList.append(c)
                comments =comments+str(c).strip().strip('\n')
                print c
        return comments
if __name__ == '__main__':
    print 'start ....'
    title=u'殺破狼·貪狼'
    movieId = getMovieId(title)
    print 'movie id is:'
    print movieId
    comments = getCommentsById(movieId,10)
    comments=comments.replace(' ','')
    print comments
    #使用正則表示式去除標點符號
    pattern = re.compile(r'[\u4e00-\u9fa5]+')
    filterdata = re.findall(pattern, comments)
    cleaned_comments = ''.join(filterdata)
    cleaned_comments= comments
    #使用結巴分詞進行中文分詞
    segment = jieba.lcut(cleaned_comments)
    words_df=pd.DataFrame({'segment':segment})

    #去掉停用詞 #如果有電影領域的停用詞就更好了
    #stopwords=pd.read_csv('D:\python\stopwords.txt',index_col=False,sep="\t",names=['stopword'], encoding='utf-8')#quoting=3全不引用

相關推薦

Python2.7 爬蟲實踐豆瓣電影影評分析

  #避免uncode出現在雲圖,所以我直接將結果儲存為str     for i in range(10):         num = i + 1         if pageNum >0 :             start =(num-1) * 20         else:      

零基礎Python爬蟲實戰豆瓣電影TOP250

我們曾經抓取過貓眼電影TOP100,並進行了簡單的分析。但是眾所周知,豆瓣的使用者比較小眾、比較獨特,那麼豆瓣的TOP250又會是哪些電影呢? 我在整理程式碼的時候突然發現一年多以前的爬蟲程式碼竟然還能使用……那今天就用它來演示下,如何通過urllib+BeautifulSoup來快

初試python爬蟲豆瓣電影爬蟲

因為課程需要,前兩天花了一天學習python並寫了一個豆瓣電影的爬蟲。課程要求是這樣的:爬取豆瓣網站上,電影排名在前50名的電影,包括電影名字,電影評分,電影簡介,爬下來的電影資料進行分類,按照不同分類儲存在資料庫/Excel中的不同表中。python的環境安裝配置,以及語法

案例學python——案例三豆瓣電影資訊入庫 一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

  閒扯皮 昨晚給高中的妹妹微信講題,函式題,小姑娘都十二點了還迷迷糊糊。今天凌晨三點多,被連續的警報聲給驚醒了,以為上海拉了防空警報,難不成地震,空襲?難道是樓下那個車主車子被堵了,長按喇叭?開窗看看,好像都不是。好鬼畜的警報聲,家裡也沒裝報警器啊,莫不成家裡煤氣漏了?起床循聲而查,報警

python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式,並將爬取到的資料(排名、電影名和電影海報網址)存入MySQL資料庫中。下面是完整程式碼:Ps:在執行程式前,先在MySQL中建立一個數據庫"pachong"。import pymysql import requests imp

7)Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊,包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容,然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下: #!/us

Python爬蟲入門 | 7 分類爬取豆瓣電影,解決動態載入問題

  比如我們今天的案例,豆瓣電影分類頁面。根本沒有什麼翻頁,需要點選“載入更多”新的電影資訊,前面的黑科技瞬間被秒……   又比如知乎關注的人列表頁面:   我複製了其中兩個人暱稱的 xpath: //*[@id="Popov

Python爬蟲小案例豆瓣電影TOP250

原始碼: #!/usr/bin/python3 # -*-coding: UTF-8-*- from urllib import request import re class MovieTop250(object): def __init

初學python用簡單的爬蟲爬取豆瓣電影TOP250的排名

一開始接觸到python語言,對它沒什麼瞭解。唯一知道的就是它可以用來寫爬蟲,去爬取網路上的資源。爬蟲是一種按照一定的規則,自動地抓取網路上的資訊的程式或者指令碼。所以當我對python有一定的瞭解後,我就想個寫個爬蟲來試試手。於是就有了這篇文章,用簡單的爬蟲爬取豆瓣電影TO

python爬蟲練習1:豆瓣電影TOP250

import ria fff python top font beautiful code pen 項目1:實現豆瓣電影TOP250標題爬取: 1 from urllib.request import urlopen 2 from bs4 import Beaut

用Python爬蟲爬取豆瓣電影、讀書Top250並排序

更新:已更新豆瓣電影Top250的指令碼及網站 概述 經常用豆瓣讀書的童鞋應該知道,豆瓣Top250用的是綜合排序,除使用者評分之外還考慮了很多比如是否暢銷、點選量等等,這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高,於是在這裡打算重新給To

Python2.7更新pipUnicodeDecodeError: 'ascii' codec can't decode byte 0xb7 in position 7: ordinal not in range(128)

    1.首先更新pip版本的時候出現。這是出現在python2.7.15出現的問題   2.進入你的pyhton目錄下的lib\mimetypes.py 開啟它     3.在import下面加入這程式碼  

Python爬蟲實踐獲取石家莊空氣質量歷史資料(13年至今)

from urllib.request import urlopen from bs4 import BeautifulSoup import re import numpy import csv import time def getdatawithtablehead(url): ""

Python爬蟲--- 1.5 爬蟲實踐 獲取百度貼吧內容

原文連結:https://www.fkomm.cn/article/2018/7/22/21.html 經過前期大量的學習與準備,我們重要要開始寫第一個真正意義上的爬蟲了。本次我們要爬取的網站是:百度貼吧,一個非常適合新人練手的地方,那麼讓我們開始吧。 本次要爬的貼吧是<< 西

python2.7爬蟲例項詳細介紹之爬取大眾點評的資料

一.Python作為一種語法簡潔、面向物件的解釋性語言,其便捷性、容易上手性受到眾多程式設計師的青睞,基於python的包也越來越多,使得python能夠幫助我們實現越來越多的功能。本文主要介紹如何利用python進行網站資料的抓取工作。我看到過利用c++和java進行爬蟲的

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識,因為剛開始接觸,還是萌新,所以有什麼錯誤的地方,歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

python爬蟲之獲取豆瓣電影資訊

此次是師哥給佈置的任務,所以這幾天就在研究如何完成獲取https://movie.douban.com/top250這個網站裡面250部電影的資訊。 主要就是應用了python的urllib2與beautifulsoup的結合使用,也是我第一次使用爬蟲,當然現在看也是基礎的

python2.7爬蟲實戰(房地產資訊抓取)

import sys reload(sys) sys.setdefaultencoding( "utf-8" ) import MySQLdb import urllib2 import re from bs4 import BeautifulSoup #可改成函式這裡就懶的寫了 for i in ra

php爬蟲爬取豆瓣電影top250內容

檢視豆瓣api文件 我們直接選擇top250之後往下翻閱可以看到引數需求,有兩個引數,start和count,分別代表請求開始的起始地址,這裡是從0開始的,count代表請求的數目。<br/><br/> 返回資料

Java爬蟲實踐Jsoup+HttpUnit爬取今日頭條、網易、搜狐、鳳凰新聞

0x0 背景 最近學習爬蟲,分析了幾種主流的爬蟲框架,決定使用最原始的兩大框架進行練手: Jsoup&HttpUnit 其中jsoup可以獲取靜態頁面,並解析頁面標籤,最主要的是,可以採用類似於jquery的語法獲取想要的標籤元素,例如: /