Python---對html檔案內容進行搜尋取出特定URL地址字串，儲存成列表，並使用每個url下載圖片，並儲存到硬碟上，使用正則re

阿新 • • 發佈：2019-02-10

Python—對html檔案內容進行搜尋取出特定URL地址字串，儲存成列表，並使用每個url下載圖片，並儲存到硬碟上，正則re

對目標回包內容取出這樣類似的內容：
https://xianzhi.aliyun.com/forum/media/upload/picture/20171215230019-ab0e46aa-e1a8-1.png

2、python指令碼
在kali linux 上執行

root@kali:~/python# cat downloadxianzhi-re.py 

#coding=utf-8  
import urllib  
import re  
import sys  

def 
 getHtml(url):  
    page = urllib.urlopen(url)  
    html = page.read()  
    return html  

def getImg(html):  
    reg = r'src="(.+?\.png)"></p>'  
    imgre = re.compile(reg)  
    imglist = re.findall(imgre,html)  
    x = 0  
    for imgurl in imglist:  
        urllib.urlretrieve(imgurl,'%s100.jpg' 
 % x)  
        x+=1  
    return imglist  

html = getHtml("https://xianzhi.aliyun.com/forum/topic/1805/")  

print getImg(html)

3、執行情況
這裡寫圖片描述

這裡寫圖片描述

src="(.+?\.png)"></p>
解釋：
src="           #匹配src="
(.+?\.jpg)
# 括號表示分組，將括號的內容捕獲到分組當中
# .+表示匹配至少一個任意字元，問號?表示懶惰匹配，也就是匹配儘可能少的字串。
#  .+?\.jpg合起來表示儘可能少匹配字元的匹配到.jpg，避免匹配範圍超出src的範圍 

#  這個括號也就可以匹配網頁中圖片的url了
" "></p>         #匹配"></p>

Python---對html檔案內容進行搜尋取出特定URL地址字串，儲存成列表，並使用每個url下載圖片，並儲存到硬碟上，使用正則re

Python—對html檔案內容進行搜尋取出特定URL地址字串，儲存成列表，並使用每個url下載圖片，並儲存到硬碟上，正則re 對目標回包內容取出這樣類似的內容： https://xian

[轉載]Python-對Pcap檔案進行處理，獲取指定TCP流 https://www.cnblogs.com/sunpudding/p/9538889.html

https://www.cnblogs.com/sunpudding/p/9538889.html Python-對Pcap檔案進行處理，獲取指定TCP流通過對TCP/IP協議的學習，本人寫了一個可以實現對PCAP檔

Python對批量檔案進行VAD檢測和分段

準備： python2.7/3.+ webrtcvad import collections import contextlib import sys import wave import os import webrtcvad def read_wave(p

利用lucene對檔案內容進行關鍵字檢索

一、概述關於lucene的具體介紹，請自行百度。二、例項講解在具體實現之前，請根據自己的要求，建立對應的路徑及檔案。例如，我這邊建立的路徑及檔案是： D:/tools/LearningByMyself/lucene/sou

python 對csv檔案的列的內容讀取

以下程式碼測試在python2.7 mac上執行成功 import csv with open('/Users/wangzhao/Downloads/test.csv', 'U') as csvfile: reader = csv.DictReader(csvfi

利用StegSolve、Python對.jpg檔案進行分析

當兩張jpg圖片外觀、大小、畫素都基本相同時，可以考慮進行結合分析，即將兩個檔案的畫素RGB值進行XOR、ADD、SUB等操作，看能否得到有用的資訊。StegSolve可以方便的進行這些操作。開啟StegSolve，選擇“file”->”open”開啟

C語言實現對檔案內容進行修改

專案中需要實現對檔案內容進行修改，所以有了以下的測試程式，其中遇到了很多問題，在這一一記錄下來。其實實現原理很簡單，首先是要實現定位到所需要的欄位的那一行，之後再對指定欄位進行修改。在我接觸了shell程式設計後，覺得shell程式設計會很容易實現（網上說可以用sed命令

java 對檔案內容進行替換工作

讀取檔案程式碼如下： File file = new File("C:/Users/Administrator/Desktop/test1.json"); try { String content = FileUtils.readFileToString(file

讀寫文件、文件方法、python2的亂碼問題、python對passwd文件進行排序

__main__ .com 哈哈 == nco star 9.png mar ges 讀寫文件 if __name__==‘__main__‘: filename=input(‘請輸入保存的文件：‘) fdfile=open(filename,‘w+‘)

對文件內容進行叠代

port font atime lose 1.7 read test body 程序 #前面了解了文件的基本操作方法。在實際應用中，對文件內容進行叠代和重復執行操作是比較常見的操作。 #所謂叠代，是指不斷重復某一個動作，直到這些動作都完成為止。 1、按字節處理 #在wh

Python對字符串進行MD5加密處理

python color hashlib rip Coding lib reload md5加密進行 import hashlibimport sysreload(sys)sys.setdefaultencoding(‘utf-8‘)m = hashlib.md5()m.

Python-對Pcap文件進行處理，獲取指定TCP流

serve cap dscp 解析地址沒有 ont wikipedia 校驗和通過對TCP/IP協議的學習，本人寫了一個可以實現對PCAP文件中的IPV4下的TCP流提取，以及提取指定的TCP流，鑒於為了學習，沒有采用第三方包解析pcap，而是對byt

Python對csv檔案讀寫操作

包括使用csv模組進行檔案讀寫，使用requests模組進行檔案傳送。 def pay_task_by_self(self): global success_writer, fail_writer, cont dir_path = os.path.dirname(_

python實現文字檔案內容換行--->>>真的可行

　　最近一次密碼學實驗，給了一段超級長（7頁小四宋體的16進位制字串的word文件……）的密文求解密，肯定要把它儲存到一個txt檔案裡呀，然後指標讀入依次解密……（這是我第一印象）。然後拷貝到txt後發現原來word裡貌似是人為的換行而非輸入過長自動換行。讀出時為了避免包括了'\n'的換行符，需要把它去除掉。

如何輸出html原始碼，對html程式碼不進行解析

我們知道，瀏覽器會自動解析html程式碼，直接輸出解析後的效果。但有時我們希望輸出程式碼結構，並不想被解析，有辦法做到嗎？答案是肯定的，下面介紹下直接輸出原始碼的方法。方法一：<xmp>標籤把不需要被解析的html程式碼放入標籤<xmp><\xmp>

python 對csv檔案操作

# scrapy pipline class BazaarPipeline(object): def open_spider(self, spider): self.filename = open("digital.csv", "wb") # 建立一

利用python對2012美國大選進行資料分析(四，時間處理)

1，str轉datetime 我們可以使用pd.to_datetime(series,format='%Y%m%d')將字元轉化為日期，格式為年月日。 data_vs['time'] = pd.to_datetime(data_vs['contb_receipt_dt']

c實現功能（9）對文字的內容進行排序

#include <stdio.h> #include <string.h> #include <stdlib.h> void swap(int *p1, int *p2){ int temp = *p1; *p1 = *

CSV檔案以及Python對CSV檔案的讀寫

一，什麼是CSV檔案 CSV（Comma-Separated Values,CSV）是逗號分隔符的簡稱，以純文字形式儲存表格資料（可以把純文字理解為字串）。 CSV檔案由任意數目的記錄組成，記錄間以某種換行符分隔；每條記錄由欄位組成，欄位間的分隔符最常見的是逗號或製表符。

JSON檔案以及Python對JSON檔案的讀寫

一，什麼是JSON檔案 JSON和XML都是網際網路上資料交換的主要載體。在JSON出現之前，大家一直用XML來傳遞資料。因為XML是一種純文字格式，所以它適合在網路上交換資料。XML本身不算複雜，但是，加上DTD、XSD、XPath、XSLT等一大堆複雜的規範以後，任

Python---對html檔案內容進行搜尋取出特定URL地址字串，儲存成列表，並使用每個url下載圖片，並儲存到硬碟上，使用正則re

相關推薦