1. 程式人生 > >入門級爬蟲 抓取豆瓣top250 的電影資訊

入門級爬蟲 抓取豆瓣top250 的電影資訊

import requests
import lxml.html
from bs4 import BeautifulSoup
import re
import bs4
from pymongo import MongoClient

def req(url, param):
    resp = requests.get(url, params=param).text
    return resp

def get_data(data):
    #得到你要抓取內容然塊
    source_soup = BeautifulSoup(data, 'html.parser')
    data_ol = source_soup.ol
    films = []
    for
tag_li in data_ol: if isinstance(tag_li, bs4.element.Tag): datas = lxml.html.fromstring(str(tag_li.contents)) #得到電影名字 names = [] name1 = datas.xpath('//span[@class="title"]/text()') name2 = datas.xpath('//span[@class="other"]/text()') names.append(name1) names.append(name2) #得到電影導演及主演的資訊
info = datas.xpath('//p[@class=""]/text()') #得到電影的評分及評分人數 star = datas.xpath('//span[@class="rating_num"]/text()') num = re.search('<span>(.*)</span>', str(data_ol.contents)).group(1) #得到電影的名句 quote = datas.xpath('//span[@class="inq"]/text()'
) #將資訊存入一個字典 film_info = { 'name': names, 'info': info, 'star': star, 'num': num, 'quote': quote } films.append(film_info) return films cli = MongoClient('localhost', 27017) db = cli.films for i in range(1, 11): param = { 'start': (i - 1) * 25, 'filter': "" } url = 'https://movie.douban.com/top250' db.films2.insert(get_data(req(url, param))) print("spider success")

使用bs4, lxml.html.xpath, requests
還請各位看客多多指教,

相關推薦

入門爬蟲 豆瓣top250電影資訊

import requests import lxml.html from bs4 import BeautifulSoup import re import bs4 from pymongo impo

python爬蟲--爬豆瓣top250電影

python爬蟲--爬取豆瓣top250電影名 關於模擬瀏覽器登入的header,可以在相應網站按F12調取出編輯器,點選netwook,如下: 以便於不會被網站反爬蟲拒絕。   1 import requests 2 from bs4 import BeautifulSoup

2-6-1 應用案例:爬豆瓣 TOP250 電影資訊並存儲(版本:py3)——學習筆記

爬取電影名稱、連結並寫入檔案 import urllib.request as urlrequest from bs4 import BeautifulSoup import time #休息時間 import random #為了時間隨機 top250_url="htt

python實踐2——利用爬蟲豆瓣電影TOP250資料及存入資料到MySQL資料庫

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式,並將爬取到的資料(排名、電影名和電影海報網址)存入MySQL資料庫中。下面是完整程式碼:Ps:在執行程式前,先在MySQL中建立一個數據庫"pachong"。import pymysql import requests imp

python scrapy框架爬豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案    class DoubanItem(scrapy.Item):  &nb

Python爬蟲入門 | 4 爬豆瓣TOP250圖書資訊

  我們將要爬取哪些資訊:書名、連結、評分、一句話評價…… 1. 爬取單個資訊 我們先來嘗試爬取書名,利用之前的套路,還是先複製書名的xpath:   得到第一本書《追風箏的人》的書名xpath如下: //*[@id=

《團隊-爬豆瓣Top250電影-團隊-階段互評》

溝通 爬取 top 負責 負責任 完成 好的 電影 責任 學號:2015035107080得分:9.8原因:認真完成任務,與組員相互溝通交流,相互協作。 學號:2015035107152得分:9.6原因:為人誠實謙虛,能吃苦耐勞,敏而好學,積極尋找答案。 學號:201503

團隊-爬豆瓣Top250電影-團隊-階段互評

尋找 爬取 編程 階段 豆瓣 top 積極 領導 耐心 學號:2015035107001得分:8.5 原因:有耐心,較為認真 學號:2015035107004得分:9.6 原因:結對編程夥伴,負責 學號:2015035107080得分:10 原因:領導性較強 ,認真負責,樂

python3爬蟲--爬豆瓣Top250的圖書

from lxml import etree import requests import csv fp = open('doubanBook.csv', 'wt', newline='', encoding='utf-8') writer = csv.writer(fp) writer.

python scrapy框架爬豆瓣top250電影篇一代理編寫

爬蟲偽裝: UA中介軟體編寫 settings設定 from scrapy import signals import base64 import random class my_useragent(object): def process_req

python scrapy框架爬豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中 環境 windows7 mongodb4.0 mongodb安裝教程 設定具體引數 在管道里面寫具體引數 開啟settings 設定引數 測試開始–結果 程式碼 import pymongo from douban.

python3 爬蟲豆掰電影TOP 250

個人喜歡看電影,就去爬豆瓣上的電影Top榜,python入門不久,順便學習練下 from urllib import request from bs4 import BeautifulSoup #Beautiful Soup是一個可以從HTML或XML檔案中提取結構化

用Jsoup爬蟲豆瓣書籍資訊

抓取豆瓣上的書籍資訊 之前有一個愛立信外包的獵頭聯絡我,先是幫我推簡歷,然後讓程式設計實現爬蟲,抓取豆瓣上網際網路、程式設計、演算法的書籍資訊,自己太菜,電面就跪了。。。。。。但還是把自己的實現分享出來 題目如下:將豆瓣(book.douban.com)裡的

簡易資料分析 04 | Web Scraper 初嘗--豆瓣高分電影

這是簡易資料分析系列的第 4 篇文章。 今天我們開始資料抓取的第一課,完成我們的第一個爬蟲。因為是剛剛開始,操作我會講的非常詳細,可能會有些囉嗦,希望各位不要嫌棄啊:) 有人之前可能學過一些爬蟲知識,總覺得這是個複雜的東西,什麼 HTTP、HTML、IP 池,在這裡我們都不考慮這些東西。一是小的資料量根本

python3實現貓眼top100電影資訊

前言:最近正在學習python爬蟲,瞭解一些基礎知識後,還是要實踐動手熟悉。下面文章例子有空再加備註。。import requests import re import json import time from requests.exceptions import Requ

小試牛刀 (豆瓣推理小說資訊)

1. 事前準備: 瞭解scrapy的基本命令及弄懂scrapy文件中例子的專案結構等基本資訊 下文將假設大家已經有了以上準備, 對一些細節不會詳細闡述, 如有不懂可以先翻翻文件或留言詢問下載本例子原始碼(文章末尾)2. 豆瓣頁面分析 我們準備'下手'的是豆瓣推理小說的資料,

Scrapy入門例項(使用Scrapy豆瓣電影top250榜單)

專案地址:https://github.com/yuanfuzhi/ScrapyDemo.git 一  Scrapy介紹與安裝 1,  Scrapy介紹 Scrapy是一個為了爬取網站資料,提取結構性資料而編寫的應用框架。可以應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中

Python爬蟲入門 | 4 爬豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息:書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名,利用之前的套路,還是先復制書名的xpath:得到第一本書《追風箏的人》的書名xpath如下:

我的第一個python爬蟲:爬豆瓣top250前100部電影

爬取豆瓣top250前100部電影   1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

用Python爬蟲豆瓣電影、讀書Top250並排序

更新:已更新豆瓣電影Top250的指令碼及網站 概述 經常用豆瓣讀書的童鞋應該知道,豆瓣Top250用的是綜合排序,除使用者評分之外還考慮了很多比如是否暢銷、點選量等等,這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高,於是在這裡打算重新給To