1. 程式人生 > >python3.6簡單爬蟲:獲取電影的爛番茄指數(一)

python3.6簡單爬蟲:獲取電影的爛番茄指數(一)

 載入包

import requests
from bs4 import BeautifulSoup

獲取網站的url

url = 'https://www.rottentomatoes.com/m/et_the_extraterrestrial'
response = requests.get(url)

獲取關鍵詞資料

進入網頁後,右鍵->檢視元素(火狐),即可檢視網頁的HTML原始碼。

搜尋電影名字、評分等關鍵詞或者通過選中不同原始碼查詢想獲得資訊的標籤。

比如說,我們想獲取電影的名字,搜尋或檢視電影名字所在位置,讀取它的標籤

利用find,讀取標籤‘title’內的資訊,並刪除最後的‘- Rotten Tomatoes’字串。

soup = BeautifulSoup(response.content,'lxml')
title = soup.find('title').contents[0][:-len(' - Rotten Tomatoes')]

注意:find獲取的是名字為‘title’的標籤集中的第一個標籤;find_all獲取的是名字為‘title’的標籤集。

同理可以獲得其他關鍵詞資訊,比如說評分、參與評分的觀眾人數等等,但需要注意的幾點技巧是:

1.獲取標籤內標籤的內容:

#獲取觀眾的評分
audience_score = soup.find('div',class_ = "audience-score meter").find('span').contents[0][:-1]

2.find_all用法示例:

#獲取評分觀眾的數量,並去除千位分隔符
audience_num = soup.find('div',class_ = 'audience-info hidden-xs superPageFontColor').find_all('div')[1].contents[2].strip().replace(',','')

整理資料

1.獲取的電影名字中,包含\xa0字元,刪除並保持單詞間距為一個空格!

title = ' '.join(title.split())

2.將評分和觀眾數量轉化為int格式

audience_score = int(audience_score)
audience_num = int(audience_num
至此,單個網頁中的資料抓取已經完成,下一步是推廣至多個網頁並編寫指令碼。

相關推薦

python3.6簡單爬蟲獲取電影番茄指數

 載入包import requests from bs4 import BeautifulSoup獲取網站的urlurl = 'https://www.rottentomatoes.com/m/et_the_extraterrestrial' response = reque

【視頻】零基礎學Android開發藍牙聊天室APP

android入門 mod http 開發 org 薪資 get target 下載 零基礎學Android開發:藍牙聊天室APP第一講 1. Android介紹與環境搭建:史上最高效Android入門學習 1.1 Google的大小戰略 1.2 物聯網與雲計算 1.3

【問底】夏俊深入站點服務端技術——站點並發的問題

而是 思路 臨時 系統負載 表現 json article 不能 情況 摘要:本文來自擁有十年IT從業經驗、擅長站點架構設計、Web前端技術以及Java企業級開發的夏俊,此文也是《關於大型站點技術演進的思考》系列文章的最新出爐內容。首發於CSDN,各位技術人員不

java枚舉即對java枚舉中的例子進行拓展

枚舉/* 知識點:枚舉 枚舉是從java5開始提供的一種新的數據類型,是一個特殊的類,就是多個常量對象的集合 定義格式: [修飾符] enum 枚舉類名 { 常量A, 常量B, 常量C; } */ //定義枚舉 enum Weekday { Mond

信息收集篇玩轉信息收集

sgk 理解 自己 htm 分類 style col china 推薦 都知道,信息收集這個東西在各行各業都能用到,在偵探業,現場的勘察以及細節信息需要了解;IT/網絡安全/黑客這方面也更是如此,要談信息收集這個東西說起來覆蓋的業界可謂是非常的廣泛,今天我就主要是在計算

拒絕代碼

jquery實現 代碼格式 部分 bsp 沒有 對象 包含 業務 htm 今天看到一個使用jQuery實現京東商城的視頻,發現我平時寫的代碼只註意了代碼格式,而沒有配置的意識,我的代碼是屬於最爛最爛的那種,絕對沒有之一。 然後根據今天所看的視頻,將自己的代碼及代碼文件進行了

Python學習14.Python面向對象

針對 序列 內部 根據 輸出結果 lane p s person ane 一、面向對象簡介   Python設計之初,就是一門面向對象的語言,在Python中一切皆對象,而且在Python中創建一個對象也很簡單,今天我們就來學習一下Python的面向對象的知識。 二、兩

演算法基礎資料型別,基礎結構

基礎概念 一、資料型別 基本資料型別一般長度 (注意以下的 long long 實際上指的是 unsigned long long 型別) (long long 型別數值範圍是-9223372036854775808 ~ 9223372036854775807)差不多範圍是

Linux進階自動化運維之ANSIBLE

運維自動化發展歷程 1、本地部署(On-Premiss) 部署硬體+軟體+作業系統+環境+服務 2、基礎設施即服務(Iaas) 相當於只准備硬體 3、平臺即服務(Paas) 相當於只准備服務 4、軟體即服務(SaaS) 直接使用 企業實際應用場景分析 1、Dev開發環境 使用者:程式

開發工具全棧開發工具彙總——彙總

本文中將各類開發過程中需要使用的工具進行彙總,後面會有詳細介紹 一、前端 AxureRP:原型圖設計工具 JetBrains WebStorm:網頁編輯工具 EditPlus:網頁編輯工具 HBuilder:輕量級網頁編輯工具 ace_admin:ac

python學習之【第十七篇】Python中的面向物件

1.什麼是類和類的物件? 類是一種資料結構,我們可以用它來定義物件,後者把資料值和行為特性融合在一起,類是現實世界的抽象的實體以程式設計形式出現。例項是這些物件的具體化。類是用來描述一類事物,類的物件指的是這一類事物的一個個體。例如:“人”就是一個類,而男人,女人,小孩等就是“人”這個類的例項物件;再比如“

搭建簡單圖片分類的卷積神經網路-- 訓練模型的圖片資料預處理

一、訓練之前資料的預處理主要包括兩個方面 1、將圖片資料統一格式,以標籤來命名並存到train資料夾中(假設原始圖片按類別存到資料夾中)。 2、對命名好的圖片進行訓練集和測試集的劃分以及圖片資料化。 先對整個專案檔案進行說明: 專案資料夾

個人的武林滲透測試常規思路分析

寫在前面 滲透測試是門技術,也是一門藝術。 這門技術(藝術)一開始也不是每個人都會的,正所謂沒有人一出生就會走路,從不懂到入門到深諳,一步步慢慢來,每個人都是這樣;但是在這個過程中,思路無疑是最重要的,沒有做不到只有想不到,就跟咱們高中解題時有了思路就迎刃而解一樣,手裡拿著鏟子(技巧知識)但不是道從何挖起

演算法工程師修仙之路吳恩達機器學習

吳恩達機器學習筆記及作業程式碼實現中文版 第一章 緒論:初識機器學習 什麼是機器學習 Machine Learning(機器學習)是研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。 機器學習被用

分享知識-快樂自己SpringBoot整合熱部署配置

<build> <plugins> <plugin> <groupId>org.springframework.boot</groupId> &l

Vue專案實戰優化已有元件優化系列

一_原有元件效果 其中,核取方塊為一個元件,根據資料庫中的值,進行是否勾選,並且核取方塊只能是禁用的 二_原有元件程式碼 <template> <input v-if="gearboxtype === 'A'" checked type="

Opencv開發筆記五畫素的讀寫

一、講講什麼是畫素 畫素是指由影象的小方格即所謂的畫素(pixel)組成的,這些小方塊都有一個明確的位置和被分配的色彩數值,這些小方塊內放的數和所放的位置據決定了影象在某個位置所顯示的顏色,比如某一塊區域放的都是數字0(255),則該片區域會顯示出黑色(白色),可以將畫素視

程式設計菜鳥到大佬之路C語言程式特別篇

程式設計習題 迴圈例題選講 例1.乘方計算 給出一個整數a和一個正整數n,求乘方ana^nan。 輸入:一行,包含兩個整數a和n。 -1000000 <= a <= 1000000,1 <= n <= 10000。 輸出:一個整數,

Spring boot入門快速搭建Spring boot專案

(一)Spring boot介紹   本部分摘自:https://www.zhihu.com/question/64671972/answer/223383505   Spring Boot是由Pivotal團隊提供的全新框架,其設計目的是用來簡化新Spring應用的初始搭建以及開發過程。該框架使用了特定

Pyhon網路爬蟲學習筆記—抓取本地網頁

如何用Python爬取本地網頁   一、寫出一個簡單的靜態網頁,下面是我隨便寫的一個 網頁原始碼如下 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UT