1. 程式人生 > >Web Scraper 高階用法——抓取屬性資訊 | 簡易資料分析 16

Web Scraper 高階用法——抓取屬性資訊 | 簡易資料分析 16

這是簡易資料分析系列的第 16 篇文章。

這期課程我們講一個用的較少的 Web Scraper 功能——抓取屬性資訊。

網頁在展示資訊的時候,除了我們看到的內容,其實還有很多隱藏的資訊。我們拿豆瓣電影250舉個例子:

電影圖片正常顯示的時候是這個樣子:

如果網路異常,圖片載入失敗,就會顯示圖片的預設文案,這個文案其實就是這個圖片的屬性資訊:

我們檢視一下這個結構的 HTML(檢視方法可見 CSS 選擇器的使用的第一節內容),就會發現圖片的預設文案其實就是這個 <img/> 標籤的 alt 屬性:

我們可以看一下 HTML 文件裡對 alt 屬性的描述:

alt 屬性是一個必需的屬性,它規定在影象無法顯示時的替代文字

在 web scraper 裡,我們可以利用 Element attribute 屬性來抓取這種屬性資訊。

因為這次的內容比較簡單,新建 sitemap 這一步我就先省略了,我們直接上來使用 Element attribute 抓取資料。

我們把 Type 選為 Element attribute,然後用 Selector 選中圖片這個元素:

Element attribute 會多一個選項——Attribute name,我們在這個輸入框裡輸入我們要抓取的屬性名字。

觀察一下這個 img 標籤的屬性,有 alt(替換文字)、width(圖片寬度)和 src(圖片連結)3 種:

這裡我先輸入 alt

,表示抓取圖片的替代文字:

還可以輸入 src,表示抓取圖片的連結:

也可以輸入 width,抓取圖片寬度:

通過 Element attribute 這個選擇器,我們就可以抓取一些網頁沒有直接展示出來的資料資訊,非常的方便。

sitemap 分享

{"_id":"douban2","startUrl":["https://movie.douban.com/top250?start=0&filter="],"selectors":[{"id":"ele","type":"SelectorElement","parentSelectors":["_root"],"selector":".grid_view li","multiple":true,"delay":0},{"id":"image_name","type":"SelectorElementAttribute","parentSelectors":["ele"],"selector":"img","multiple":false,"extractAttribute":"alt","delay":0}]}

推薦閱讀

Web Scraper 高階用法——CSS 選擇器的使用 | 簡易資料分析 15

HTML img 標籤的 alt 屬性

聯絡我

因為文章發在各大平臺上,賬號較多不能及時回覆評論和私信,有問題可關注公眾號 ——「鹵代烴實驗室」,(或 wx 搜尋 sky_chx)關注上車防失聯。

相關推薦

Web Scraper 高階用法——屬性資訊 | 簡易資料分析 16

這是簡易資料分析系列的第 16 篇文章。 這期課程我們講一個用的較少的 Web Scraper 功能——抓取屬性資訊。 網頁在展示資訊的時候,除了我們看到的內容,其實還有很多隱藏的資訊。我們拿豆瓣電影250舉個例子: 電影圖片正常顯示的時候是這個樣子: 如果網路異常,圖片載入失敗,就會顯示圖片的預設文

簡易資料分析 13 | Web Scraper 高階用法——二級頁面

這是簡易資料分析系列的第 13 篇文章。 不知不覺,web scraper 系列教程我已經寫了 10 篇了,這 10 篇內容,基本上覆蓋了 Web Scraper 大部分功能。今天的內容算這個系列的最後一篇文章了,下一章節我會開一個新坑,說說如何利用 Excel 對收集到的資料做一些格式化的處理和分析。

Web Scraper 高階用法——利用正則表示式篩選文字資訊 | 簡易資料分析 17

![](https://image-1255652541.cos.ap-shanghai.myqcloud.com/images/20200317225112.png) 這是簡易資料分析系列的**第 17 篇**文章。 學習了這麼多課,我想大家已經發現了,web scraper 主要是用來爬取**

簡易資料分析 04 | Web Scraper 初嘗--豆瓣高分電影

這是簡易資料分析系列的第 4 篇文章。 今天我們開始資料抓取的第一課,完成我們的第一個爬蟲。因為是剛剛開始,操作我會講的非常詳細,可能會有些囉嗦,希望各位不要嫌棄啊:) 有人之前可能學過一些爬蟲知識,總覺得這是個複雜的東西,什麼 HTTP、HTML、IP 池,在這裡我們都不考慮這些東西。一是小的資料量根本

簡易資料分析 09 | Web Scraper 自動控制數量 & Web Scraper 父子選擇器

這是簡易資料分析系列的第 9 篇文章。 今天我們說說 Web Scraper 的一些小功能:自動控制 Web Scraper 抓取數量和 Web Scraper 的父子選擇器。 如何只抓取前 100 條資料? 如果跟著上篇教程一步一步做下來,你會發現這個爬蟲會一直運作,根本停不下來。網頁有 1000 條資

簡易資料分析 10 | Web Scraper 翻頁——「滾動載入」型別網頁

這是簡易資料分析系列的第 10 篇文章。 友情提示:這一篇文章的內容較多,資訊量比較大,希望大家學習的時候多看幾遍。 我們在刷朋友圈刷微博的時候,總會強調一個『刷』字,因為看動態的時候,當把內容拉到螢幕末尾的時候,APP 就會自動載入下一頁的資料,從體驗上來看,資料會源源不斷的加載出來,永遠沒有盡頭。

簡易資料分析 12 | Web Scraper 翻頁——分頁器翻頁的網頁

這是簡易資料分析系列的第 12 篇文章。 前面幾篇文章我們介紹了 Web Scraper 應對各種翻頁的解決方法,比如說修改網頁連結載入資料、點選“更多按鈕“載入資料和下拉自動載入資料。今天我們說說一種更常見的翻頁型別——分頁器。 本來想解釋一下啥叫分頁器,翻了一堆定義覺得很繁瑣,大家也不是第一年上網了,

淘寶爬商品資訊以及資料分析

爬取淘寶商品 專案內容 案例選擇>>商品類目:沙發 數量:共100頁 4400商品 篩選條件:天貓、銷量從高到低、價格500元以上 專案目的 對商品標題進行文字分析,詞雲視覺化 不同關鍵詞word對應的sales的統計分析

簡易資料分析 07 | Web Scraper 多條內容

這是簡易資料分析系列的第 7 篇文章。 在第 4 篇文章裡,我講解了如何抓取單個網頁裡的單類資訊; 在第 5 篇文章裡,我講解了如何抓取多個網頁裡的單類資訊; 今天我們要講的是,如何抓取多個網頁裡的多類資訊。 這次的抓取是在簡易資料分析 05的基礎上進行的,所以我們一開始就解決了抓取多個網頁的問題,下面全

簡易資料分析 11 | Web Scraper 表格資料

這是簡易資料分析系列的第 11 篇文章。 今天我們講講如何抓取網頁表格裡的資料。首先我們分析一下,網頁裡的經典表格是怎麼構成的。 First Name 所在的行比較特殊,是一個表格的表頭,表示資訊分類 2-5 行是表格的主體,展示分類內容 經典表格就這些知識點,沒了。下面我們寫個簡單的表格 Web

Python網路爬蟲之訂餐資訊

         本文以大眾點評網為例,獲取頁面的餐館資訊,以達到練習使用python的目的。              1.抓取大眾點評網中關村附近的餐館有哪些 import urllib.request import re def fetchFood(url):

用python 通過12306api列車資訊

PS:本文為學習參考例項。程式碼與上述大體相同。 首先了解這些查詢介面是怎麼來的 chrome是個好東西,特別是它的控制檯能看到很多細節。 12306網站通過chrome可以看到查詢票的api 其中有log? 和 queryA?兩種開頭的介面

python網路爬蟲--股票資訊到Mysql

1.建表mysql -u root -p 123456create database test default character set utf8;create table stocks --a股(  code varchar(10) comment '程式碼',  nam

爬蟲框架Scrapy實戰之批量招聘資訊--附原始碼

瞭解更多Python爬蟲內容請微信公眾號關注:Python技術博文 所謂網路爬蟲,就是一個在網上到處或定向抓取資料的程式,當然,這種說法不夠專業,更專業的描述就是,抓取特定網站網頁的HTML資料。不過由於一個網站的網頁很多,而我們又不可能事先知道所有網頁的URL地址

爬蟲requests庫簡單頁面資訊功能實現(Python)

import requests import re, json,time,random from requests import RequestException UserAgentList = [ "Mozilla/5.0 (Windows NT 6.1; WO

(PHP)用cURL網頁資訊並替換部分內容

<?php /** * 用cURL抓取網頁資訊並替換部分內容 * User: Ollydebug * Date: 2015/11/11 * Time: 19:13 */ $curlo

Python3頁面資訊,網路程式設計,簡單傳送QQ郵件

資料收集,資料整理,資料描述,資料分析 # coding=utf-8 import sys import urllib.request req = urllib.request.Request(

Scrapy 框架簡介 一點資訊

什麼是scrapy ? 1 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架,用途非常廣泛 2 Scrapy 使用了 Twisted['twɪstɪd](其主要對手是Tornado)非同步網路框架來處理網路通訊3 Scrapy非常的靈

一個簡單的Jsoup頁面資訊的例子

簡介: jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和操作資料。在本文,本人將教大家如何使用jsoup抓取一些簡單的頁面資訊準備:

Perl網頁資訊

demo: #!/usr/bin/perl -w # Perl pragma to restrict unsafe constructs use strict; # use LWP::UserAgent model use LWP::UserAgent; # main