Python簡易爬蟲爬取百度貼吧圖片

阿新 • • 發佈：2017-07-30

decode works 接口 def 讀取 min baidu 得到 internal

　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0)

一.獲取整個頁面數據

def getHtml(url):
    page=urllib.request.urlopen(url)
    html=page.read()
    return html

　說明:　

　　向getHtml()函數傳遞一個網址，就可以把整個頁面下載下來.
　　urllib.request 模塊提供了讀取web頁面數據的接口，我們可以像讀取本地文件一樣讀取www和ftp上的數據.

二.篩選頁面中想要的數據

　　在百度貼吧找到了幾張漂亮的圖片,想要下載下來.使用火狐瀏覽器,在圖片位置鼠標右鍵單單擊有查看元素選項,點進去之後就會進入開發者模式,並且定位到圖片所在的前段代碼

現在主要觀察圖片的正則特征,編寫正則表達式.

reg=r‘src="(https://imgsa[^>]+\.(?:jpeg|jpg))"‘
#參考正則

編寫代碼

def getImg(html):
    reg=r‘src="(https://imgsa[^>]+\.(?:jpeg|jpg))"‘
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html.decode(‘utf-8‘))
    return imglist

說明:

　　　re.compile() 可以把正則表達式編譯成一個正則表達式對象.

　　　re.findall() 方法讀取html 中包含 imgre（正則表達式）的數據。

　　　　運行腳本將得到整個頁面中包含圖片的URL地址。

三.將頁面篩選的數據保存到本地

　　編寫一個保存的函數

def saveFile(x):
    if not os.path.isdir(path):
        os.makedirs(path)
    t = os.path.join(path,‘%s.img‘%x)
    return  t

完整代碼:

‘‘‘
Created on 2017年7月15日

@author: Administrator
‘‘‘
import urllib.request,os
import re

def getHtml(url):
    page 
=urllib.request.urlopen(url)
    html=page.read()
    return html

path=‘D:/workspace/Python1/reptile/__pycache__/img‘

def saveFile(x):
    if not os.path.isdir(path):
        os.makedirs(path)
    t = os.path.join(path,‘%s.img‘%x)
    return  t

html=getHtml(‘https://tieba.baidu.com/p/5248432620‘)
 
print(html)

print(‘\n‘)

def getImg(htnl):
    reg=r‘src="(https://imgsa[^>]+\.(?:jpeg|jpg))"‘
    imgre=re.compile(reg)
    imglist=re.findall(imgre,html.decode(‘utf-8‘))
    x=0
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl,saveFile(x))
        print(imgurl)
        x+=1
        if x==23:
            break
    print(x)
    return imglist

getImg(html)
print(‘end‘)

核心是用到了urllib.request.urlretrieve()方法，直接將遠程數據下載到本地

最後,有點問題還沒有完全解決,這裏也向大家請教一下.

　　當下載圖片超過23張時會報錯:

　　　　urllib.error.HTTPError: HTTP Error 500: Internal Server Error
　　不知道是什麽問題,求助.

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

實戰python 爬蟲爬取百度貼吧圖片

#!/usr/bin/python import urllib,urllib2import re def getHtml(url): page = urllib2.urlopen(url) return page.read() def getImage(html): re_img = re.compil

Python爬蟲-爬取百度貼吧

方法 eba style name urlopen for pri url pen 爬取百度貼吧 ===================== ===== 結果示例： ===================================== 1 ‘‘‘ 2 爬去百

python爬蟲爬取百度貼吧（入門練習）

需求說明：從控制檯輸入指定爬取的貼吧名稱，起始頁面，結束頁面，並在檔案中建立以貼吧名稱+“爬取內容” 為名字建立檔案件，裡面的每一個檔案都是爬取到的每一頁html檔案，檔名稱：貼吧名稱_page.html import urllib.reque

PHP爬蟲-爬取百度貼吧首頁違規主題貼

因為是第一次寫，感覺有點冗餘。不過嘛，本文章主要面向不知道爬蟲為何物的小夥伴。o(∩_∩)o <?php $url='http://tieba.baidu.com/f?ie=utf-8&kw=php&fr=search'; // 地址 $html = file_ge

Python爬取百度貼吧圖片指令碼

新手，以下是爬取百度貼吧制定帖子的圖片指令碼，因為指令碼主要是解析html程式碼，因此一旦百度修改頁面前端程式碼，那麼指令碼會失效，權當爬蟲入門練習吧，後續還會嘗試更多的爬蟲。 # coding=ut

編寫爬蟲爬取百度貼吧帖子的學習筆記

再接再厲，再次使用python3學習編寫了一個爬取百度貼吧帖子的程式，不多說，直接上關鍵程式碼 #抓取貼吧一個帖子上的內容（一頁內容） import urllib import urllib.req

網路爬蟲簡單的實現爬取百度貼吧圖片

我們要爬取的網站是https://tieba.baidu.com/p/3797994694 首先爬取第一頁的圖片，使用python3自帶庫urllib，詳細的程式碼如下：接下來爬去多頁的圖片，這裡我們選取五頁的圖片，這裡我們採用requests，beautifuls

XPath：爬取百度貼吧圖片，並儲存本地

使用XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Markup

爬取百度貼吧圖片

本次文章內容是爬取貼吧圖片，希望對大家有所幫助使用環境：我用的是python2.7.9 在Python 3以後的版本中，urllib2這個模組已經不單獨存在（也就是說當你import urllib2時，系統提示你沒這個模組），urllib2被合併到了urllib中。 url

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

python網路爬蟲學習(二)一個爬取百度貼吧的爬蟲程式

今天進一步學習了python網路爬蟲的知識，學會了寫一個簡單的爬蟲程式，用於爬取百度貼吧的網頁並儲存為HTML檔案。下面對我在實現這個功能時的程式碼以及所遇到的問題的記錄總結和反思。首先分析實現這個功能的具體思路: 通過對貼吧URL的觀察，可以看出貼吧中的

python爬蟲(13)爬取百度貼吧帖子

爬取百度貼吧帖子一開始只是在網上看到別人寫的爬取帖子的文章，然後自己就忍不住手癢自己鍛鍊一下，然後照著別人的寫完，發現不太過癮，畢竟只是獲取單個帖子的內容，感覺內容稍顯單薄，然後自己重新做了修改，把它變成重寫成了一個比較強大的爬蟲精簡版本簡介通過帖子的地址，獲

Python爬蟲例項--爬取百度貼吧小說

Python爬蟲例項–爬取百度貼吧小說寫在前面本篇文章是我在簡書上寫的第一篇技術文章，作為一個理科生，能把僅剩的一點文筆拿出來獻醜已是不易，希望大家能在指教我的同時給予我一點點鼓勵，謝謝。一.介紹小說吧：顧名思義，是一個小說

Python爬取百度貼吧數據

utf-8 支持我 family encode code word keyword 上一條時間　　本渣除了工作外，在生活上還是有些愛好，有些東西，一旦染上，就無法自拔，無法上岸，從此走上一條不歸路。花鳥魚蟲便是我堅持了數十年的愛好。　　本渣還是需要上班，才能支持我的

完整的爬蟲程序爬取百度貼吧的圖片

列表文檔 for tieba http ... 自增 num 圖片 #!/usr/bin/env python#-- coding:utf-8 -- import osimport urllibimport urllib2from lxml import etree cl

python爬取百度貼吧指定內容

環境:python3.6 1：抓取百度貼吧—linux吧內容基礎版抓取一頁指定內容並寫入檔案萌新剛學習Python爬蟲,做個練習貼吧連結: http://tieba.baidu.com/f?kw=linux&ie=utf-8&pn=0 解析原始碼使用的是B

Python爬取百度貼吧標題

# -*- coding: utf-8 -*- """ Created on Sun Nov 4 10:22:07 2018 @author: wangf """ from urllib.request import urlopen import codecs from

Python爬取百度貼吧回帖中的微訊號（基於簡單http請求）

作者：草小誠轉載請注原文地址：https://blog.csdn.net/cxcjoker7894/article/details/85685115 前些日子媳婦兒有個需求，想要一個任意貼吧近期主題帖的所有回帖中的微訊號，用來做一些微商的操作，你懂的。因為有些貼吧專門就是

Python簡易爬蟲爬取百度貼吧圖片

相關推薦