用網路爬蟲爬取該網頁所有頁碼的所有圖片

阿新 • • 發佈：2019-02-20


import urllib.request
import time
import re

global x # 使用前初次宣告
x=1
#獲取網頁的html，與requests包一樣的功能
def getHtml(url):
    #開啟網頁
    page = urllib.request.urlopen(url)

    htmlcode = page.read() 
    return htmlcode


#獲取圖片對應的src屬性程式碼


def getImg(html):
    global x  # 再次宣告，表示在這裡使用的是全域性而非區域性
    html=html.decode('utf-8')
        
    #通過re-compile-findall二連函式操作來獲取圖片src屬性對應的程式碼
     
    src = r'https://[^\s]*?\.jpg'  
    imgre = re.compile(src)     #re.compile()，可以把正則表示式編譯成一個正則表示式物件
    imglist = re.findall(imgre, html) 
    #re.findall()，讀取html中包含imgre（正則表示式）的資料,imglist是包含了所有src元素的陣列
        
    #用urlretrieve下載圖片。圖片命名為0/1/2...之類的名字
       
    
    for imgurl in imglist:
        name = time.strftime("%Y_%m_%d",time.localtime()) + '_' + str(x)
            
         #注意，這裡的檔案路徑，每段路徑的首字母一定要大寫！！小寫會識別出錯
        urllib.request.urlretrieve(imgurl, r'C:\Users\aming\Desktop\K\%s.jpg' % name)
        x += 1
        
        
      
    
for i in range(2,4):
        
        html = getHtml("https://tieba.baidu.com/p/2460150866?pn=" + str(i))
        getImg(html)

用網路爬蟲爬取該網頁所有頁碼的所有圖片

import urllib.request import time import re global x # 使用前初次宣告 x=1 #獲取網頁的html，與requests包一樣的功能 def getHtml(url): #開啟網頁 pag

用網路爬蟲爬取新浪新聞----Python網路爬蟲實戰學習筆記

今天學完了網易雲課堂上Python網路爬蟲實戰的全部課程，特在此記錄一下學習的過程中遇到的問題和學習收穫。我們要爬取的網站是新浪新聞的國內版首頁下面依次編寫各個功能模組 1.得到某新聞頁面下的評論數評論數的資料是個動態內容，應該是存在伺服器

一個簡單的網路爬蟲---爬取網頁中的圖片

這裡貼上py原始碼,這個爬蟲很簡單，爬取網頁的圖片，通過正則表示式匹配對應的圖片的url 然後下載之，基本上也沒有什麼容錯處理，僅供學習之用 # -*- coding: utf-8 -*- import urllib2 import urllib im

用python寫網路爬蟲-爬取新浪微博評論

新浪微博需要登入才能爬取，這裡使用m.weibo.cn這個移動端網站即可實現簡化操作，用這個訪問可以直接得到的微博id。分析新浪微博的評論獲取方式得知，其採用動態載入。所以使用json模組解析json程式碼單獨編寫了字元優化函式，解決微博評論中的嘈雜干擾

學會用python網路爬蟲爬取鬥圖網的表情包，聊微信再也不怕鬥圖了

最近總是有人跟我鬥圖，想了想17年中旬時在網上看過一篇關於爬取鬥圖網表情包的py程式碼，但是剛想爬的時候發現網頁結構發生了變化，而且鬥圖網還插入了很多廣告，變化其實挺大的，所以臨時寫了一個爬蟲，簡單的爬取了鬥圖網的表情包。從這連結上看，page表示的是第幾頁，我

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

今天想給我的電腦裡面多加點桌布，但是嫌棄一個個儲存太慢，於是想著寫個爬蟲直接批量爬取，因為爬蟲只是很久之前學過一些，很多基礎語句都不記得了，於是直接在網上找了個有基礎操作語句的爬蟲程式碼，在這上面進行修改以適應我的要求和爬取的網頁需求注意：這次爬取的

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

用Python爬蟲爬取豆瓣電影、讀書Top250並排序

更新：已更新豆瓣電影Top250的指令碼及網站概述經常用豆瓣讀書的童鞋應該知道，豆瓣Top250用的是綜合排序，除使用者評分之外還考慮了很多比如是否暢銷、點選量等等，這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高，於是在這裡打算重新給To

網路爬蟲-爬取指定城市空氣質量檢測資料

爬取指定城市空氣質量檢測資料網站連結 → https://www.aqistudy.cn/historydata/ 以月資料為例，見下圖：然後我們通過console除錯可以發現這個網頁在items裡面已經將資料打包好了，如下圖所示沒毛病，資料全都對得上，接下來的思

python網路爬蟲爬取汽車之家的最新資訊和照片

實現的功能是爬取汽車之家的最新資訊的連結題目和文章中的照片爬蟲需要用到我們使用了 requests 做網路請求，拿到網頁資料再用 BeautifulSoup 進行解析首先先檢查是否安裝了pip，如果已經安裝了pip,直接pip install requests,pip uninstal

Python爬蟲爬取CSDND首頁的所有的文章

# -*- encoding: utf-8 -*- import re import urllib.request def function(): """Python爬蟲爬取CSDND首頁的所有的文章""" html="https://blog.csdn.n

用python爬蟲爬取和登陸github

一利用API簡單爬取利用GitHub提供的API爬取前十個star數量最多的Python庫 GitHub提供了很多專門為爬蟲準備的API介面，通過介面可以爬取到便捷，易處理的資訊。（這是GitHub官網的各種api介紹）使用到的庫 import re

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

簡述以下的程式碼是使用python實現的網路爬蟲，抓取動態網頁http://hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。本人對於Python學習建立了一個小小的學習圈子，為各位提供了

python爬蟲爬取NBA貼吧的所有精品貼

首先用直接的方法寫，先嚐試下能否爬取成功 #coding:utf-8 import urllib2,urllib import re ''' 1.準備url地址 2.準備請求頭 3.建立請求物件 4.發起請求獲取第一頁原始碼，接收響應 5.通過第一頁原始碼，找到總頁數和標題

python爬蟲爬取csdn部落格專家所有部落格內容

#coding:utf-8 import urllib2 from bs4 import BeautifulSoup import os import re #import sys #reload(sys) #sys.setdefaultencoding("utf-8") def getPage(hre

python網路爬蟲爬取房價資訊

爬取房天下（http://newhouse.cd.fang.com/house/s/）成都地區的新房資訊。開啟http://newhouse.cd.fang.com/house/s/，F12進入控制檯點選控制檯的左上角的按鈕，這是你可以將滑鼠移至房天下頁面的任何一個地方然後單

網路爬蟲爬取資料本地資料庫儲存遠端api分析模型

序言 20161119 寫一個星期多一點，在眾多的爬蟲框架中選擇了Webmagic，WebMagic簡單靈活的爬蟲框架。簡單易用，在這之前用的是WebCollector JAVA爬蟲框架，它的模組劃分弄了一天也沒

爬蟲爬取動態網頁下載美女圖片

scrapy爬取動態網頁下載圖片靜態頁面練習了後，我們開始來爬取動態頁面，為了滿足廣大程式猿的需求，在這裡就選擇360圖片吧，網址是image.so.com。希望大家學會後身體一天不如一天。首先我們來分析這個網頁，開啟開發者工具，滑動頁面等加載出新的圖片

關於java實現需要登入且帶驗證碼的定時網路爬蟲(爬取的資料存庫)

博主6月初的時候換了個工作，剛進來的時候什麼事沒有，愣是上班喝茶逛網站渡過了一週。那週週五的boss突然問我會不會爬蟲。作為一個才工作一年的javaer表示根本沒接觸過，但是那種情況下你還敢說不會麼，但是當時也不敢說的很絕對，因此就和boss就會一點。當時就隱隱約約有爬

用python爬蟲爬取去哪兒4500個熱門景點，看看國慶不能去哪兒

前言：本文建議有一定Python基礎和前端(html,js)基礎的盆友閱讀。金秋九月，丹桂飄香，在這秋高氣爽，陽光燦爛的收穫季節裡，我們送走了一個個暑假餘額耗盡哭著走向校園的孩籽們，又即將迎來一年一度偉大祖國母親的生日趴體(無心上班，迫不及待想為祖國母親

用網路爬蟲爬取該網頁所有頁碼的所有圖片

相關推薦