小白爬蟲入門——爬取圖片和文字（超詳細）

阿新 • • 發佈：2018-12-26

第一步，看網頁結構

F12開啟開發者模式，大致網頁結構如下，看圖：
這裡寫圖片描述

下面這個圖片是針對一個tr標籤的詳解，程式碼與顯示一一對應：
這裡寫圖片描述

第二步，程式碼解釋

lxml簡單使用

在自己想爬取的文字位置上單擊右鍵，選擇copy–>Xpath，即可獲得xpath內容，但需要我們稍作修改。
這裡寫圖片描述
獲得的xpath如下：

//*[@id="gift1"]/td[4]/img

但由於id是變化的，而每項裡面的class是不變的，所以修改一下，並加上src屬性，得到：

//*[@class="gift"]/td[4]/img/@src

1、獲取文字— 以第一個td為例

title 
 = html.xpath('//*[@class="gift"]/td[1]/text()')

2、獲取標籤下所有文字——獲得第二個td

這裡主要是第二部分的描述，td下不僅僅是文字還有span標籤，所以如果用text（）會出現許多空行並且獲取不到span下的文字，這裡要用string（）

#獲得html中所有的class="gift"元素下的所有第二個td子元素
desc =  html.xpath('//*[@class="gift"]/td[2]')
for i in range(0,len(desc)):
    #處理元素獲得字串
    descText = desc[i].xpath('string(.)' 
)

3、獲取圖片
這裡寫圖片描述
獲取img標籤中的src屬性中的內容

imgs=html.xpath('//*[@class="gift"]/td[4]/img/@src')

在讀取圖片時注意，由於爬取的圖片資訊是這種形式：../img/gifts/img1.jpg
在儲存圖片時需要改寫一下路徑

img = '../img/gifts/img1.jpg'
實際圖片路徑：
imgUrl = 'http://www.pythonscraping.com/x/'+img
`x/`只是為了多一層，名字隨便，抵消掉`../`

第三步，所有程式碼

匯入三個包，如果沒有該包，就pip install ，但如果pip install lxml 失敗，就看看這個

通過lxml的.whl檔案來進行安裝

import requests
from lxml import etree
import re

#文字資訊儲存在test.txt
file = open("test.txt",'w',encoding='utf-8')

url = "http://www.pythonscraping.com/pages/page3.html"

res = requests.get(url)
content = res.content
html = etree.HTML(content)

#資料解析
title = html.xpath('//*[@class="gift"]/td[1]/text()')
desc =  html.xpath('//*[@class="gift"]/td[2]')
price = html.xpath('//*[@class="gift"]/td[3]/text()')
imgs=html.xpath('//*[@class="gift"]/td[4]/img/@src')

#寫入檔案
x = len(title)
for i in range(0,x):
    # 描述要特別處理
    descText = desc[i].xpath('string(.)')

    #儲存文字資訊
    file.write("第"+str(i+1)+"行資料"+"\n"+title[i]+"\n"+descText+"\n"+price[i]+"\n\n")

    #下載圖片
    with open('F:\PythonWork\\taobao_code\images\\'+str(i)+'.jpg', 'wb') as fd:
        picture=requests.get('http://www.pythonscraping.com/x/'+imgs[i]).content
        fd.write(picture)
        print("成功下載%s.jpg"%i)

#關閉檔案
file.close()

總結

重點注意獲取標籤裡面所有文字內容

小白爬蟲入門——爬取圖片和文字（超詳細）

第一步，看網頁結構 F12開啟開發者模式，大致網頁結構如下，看圖：下面這個圖片是針對一個tr標籤的詳解，程式碼與顯示一一對應：第二步，程式碼解釋 lxml簡單使用在自己想爬取的文字位置上單擊右鍵，選擇copy–>Xp

python3爬蟲-快速入門-爬取圖片和標題

瀏覽器 ebr tle path requests itl edi 大致應用直接上代碼，先來個爬取豆瓣圖片的，大致思路就是發送請求-得到響應數據-儲存數據，原理的話可以先看看這個 https://www.cnblogs.com/sss4/p/7809821.html

Python爬蟲之爬取內涵吧段子（urllib.request）

引言在寒假開始的時候就打算學習爬蟲了，但是沒有想到一入坑到現在還沒有出坑，說多了都是淚 T_T 我準備介紹的這個庫是我初學爬蟲時候用到的，比較古老，所以我只用了一兩次就轉向了requests了

Android：新浪微博拉起客戶端分享——完美實現同時分享圖片和文字（Intent.ACTION_SEND）

新浪微博拉起客戶端分享——完美實現同時分享圖片和文字（Intent.ACTION_SEND）點選事件後處理： private void share(String content, Uri uri){

Python爬蟲入門——爬取貼吧圖片

最近忽然想聽一首老歌，“I believe” 於是到網上去搜，把幾乎所有的版本的MV都看了一遍（也是夠無聊的），最喜歡的還是最初版的《我的野蠻女友》電影主題曲的哪個版本，想起女神全智賢，心血來潮，於是就想到了來一波全MM的美照，哪裡有皁片呢？自然是百度貼吧了。放上鍊接-—

爬蟲小白——利用pycharm爬取網頁內容

概述：這是一個利用pycharm在phthon環境下做的一個簡單爬蟲分享，主要通過對豆瓣音樂top250的歌名、作者（專輯）的爬取來分析爬蟲原理什麼是爬蟲？我們要學會爬蟲，首先要知道什麼是爬蟲。網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者

Python爬蟲入門 | 爬取豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~好啦，正式開始我們的第二節課《爬取豆瓣電影信息》吧！啦啦哩啦啦，

Python爬蟲小試——爬取圖片

如果是直接裝了Anaconda整合開發環境的，就可以直接移步原始碼了否則的話，在爬取圖片之前要安裝幾個包第一個：bs4包，需要用到其中的BeautifulSoap，是一個功能強大的網頁解析工具 pip3 install bs4 第二個：requests包，

用一個小小小爬蟲，爬取淘寶寶貝評價內容

作為剁手族的成員、資深吃貨之一的我，在網購各種各樣的零食是非常頻繁的，可是要在浩瀚的商品庫中找到合適的寶貝，大多數情況下只能參考評論！為了解決這個麻煩，就用Python做了個抓取淘寶商品評論的小小爬蟲。今天就把這個爬蟲分享給大家！思路我們就拿“德

php爬蟲——以爬取圖片為例

爬蟲的一般思路如下：分析目標源所有url抓取URL分析內容入庫現在以抓取一個圖片為主的網站為例，爬取其中的圖片。 1.分析目標源所有url 此處發現，頻道的url為圖片詳情頁的u

[python爬蟲入門]爬取豆瓣電影排行榜top250

要爬取內容的是豆瓣網的電影排行top250: https://movie.douban.com/top250, 將電影名和評分爬取下來並輸出, 如下圖: 使用了tkinter做了簡單頁面然後分析如何爬取內容: 首先爬取標題: 檢視原始碼後, 發現標

Python 爬蟲入門-爬取拉勾網實戰

這幾天學習了 python 爬蟲的入門知識，也遇到很多坑，開個貼記錄一下基本原理 Python 爬蟲基本要具備以下功能：（參考此回答）向伺服器傳送請求，伺服器響應你的請求。（你可能需要了解：網頁的基本知識）從抓取到的網頁中提取出需要

python 3.3 爬蟲之爬取圖片

今天沒事用BeautifulSoup寫了一個爬取淘寶頁面的部分圖片的程式碼，之前用正則也寫了一個，感覺用BeautifulSoup 更簡單了 import urllib import urllib.request as request from bs4 import Bea

爬蟲：爬取圖片並儲存在某路徑下

import re import urllib.request def getHtml(url): page=urllib.request.urlopen(url) html=page.read() return html def getImg(html):

爬蟲：爬取圖片並保存在某路徑下

page err space print ont quest erro += .html import re import urllib.request def getHtml(url): page=urllib.request.urlopen(url)

Python爬蟲實戰(3)-爬取豆瓣音樂Top250資料(超詳細)

前言首先我們先來回憶一下上兩篇爬蟲實戰文章：第一篇：講到了requests和bs4和一些網頁基本操作。第二篇：用到了正則表示式-re模組今天我們用lxml庫和xpath語法來爬蟲實戰。 1.安裝lxml庫 window：直接用pip去

用python的matplotlib和numpy庫繪製股票K線均線的整合效果（含從網路介面爬取資料和驗證交易策略程式碼）

本人最近在嘗試著發表“以股票案例入門Python程式語言”系列的文章，在這些文章裡，將用Python工具繪製各種股票指標，在講述各股票指標的含義以及計算方式的同時，驗證基於各種指標的交易策略，本文是第一篇，通過K線和均線案例講述Numpy，Maplotlib

小白的《CSS權威指南》筆記（下部分）

顏色和背景顏色 color設定前景色。前景色 color：<color> | inherit 通過給元素新增class值，然後再通過class選擇器來改變它的顏色。替換屬性 HTML3.2的BODY屬性：TEXT、LINK、ALINK和VLINK。

小白的《HTML5權威指南》筆記（第一部分）

第一章基本瞭解HTML5 什麼是HTML5？ HTML5是一種標準，負責制定HTML標準的是W3C（World Wide Web Consortium，全球資訊網聯盟）。 HTML5不僅僅是HTML規範的最新版本，它還是一系列用來製作現代富Wed內容的相關技術的總稱。其中最重要的三項技術是

小白的《CSS權威指南》筆記（上部分）

前言書中言道，本書只涉及CSS2.0和CSS2.1的知識（PS：我是想學CSS3才買的書，看來買錯了，沒事，當作複習） CSS的優點 1.豐富的樣式 2.易於使用 3.在多個頁面上使用樣式 4.層疊（也就是選擇器有權重的作用） 5.縮減檔案大小 6.為將來做準備元素

小白爬蟲入門——爬取圖片和文字（超詳細）

第一步 ，看網頁結構

第二步 ，程式碼解釋

lxml簡單使用

第三步 ，所有程式碼

總結

相關推薦

第一步，看網頁結構

第二步，程式碼解釋

第三步，所有程式碼