1. 程式人生 > >HtmlParser應用,使用Filter從爬取到的網頁中獲取需要的內容

HtmlParser應用,使用Filter從爬取到的網頁中獲取需要的內容

/** * 在文字中通過正則進行匹配 * * @param url 請求處理的url * @param encoding 字元編碼 * @param regex 待匹配的正則表示式 */ public static void regexStringFilter(String url,String encoding,String regex){ try { Parser parser = new Parser(); parser.setURL(url);
if(null==encoding){ parser.setEncoding(parser.getEncoding()); }else{ parser.setEncoding(encoding); } //OrFilter是結合幾種過濾條件的‘或’過濾器 NodeFilter filter = new RegexFilter(regex); NodeList list = parser.extractAllNodesThatMatch(filter);
for(int i=0; i<list.size();i++){ Node node = (Node)list.elementAt(i); System.out.println("link is :" + node.toHtml()); } } catch (Exception e) { e.printStackTrace(); } } /** * 在連結地址中進行正則匹配,返回的是Link結點 * *
@param url 請求url * @param encoding 字元編碼 * @param regex 待匹配的正則表示式 */ public static void linkTagRegexFilter(String url,String encoding,String regex){ try { Parser parser = new Parser(); parser.setURL(url); if(null==encoding){ parser.setEncoding(parser.getEncoding()); }else{ parser.setEncoding(encoding); } //OrFilter是結合幾種過濾條件的‘或’過濾器 NodeFilter filter = new LinkRegexFilter(regex); NodeList list = parser.extractAllNodesThatMatch(filter); for(int i=0; i<list.size();i++){ Node node = (Node)list.elementAt(i); System.out.println("link is :" + node.toHtml()); } } catch (Exception e) { e.printStackTrace(); } } public static void main(String[] args) { String url = "F:/dennisit/email.txt"; String emailRegex = "[a-zA-Z0-9_-][email protected]\\w+\\.[a-z]+(\\.[a-z]+)?"; regexStringFilter(url, "UTF-8", emailRegex); System.out.println("-------------------------------------------"); linkTagRegexFilter(url, "UTF-8", emailRegex); }

相關推薦

HtmlParser應用,使用Filter到的網頁獲取需要內容

/** * 在文字中通過正則進行匹配 * * @param url 請求處理的url * @param encoding 字元編碼 * @param regex 待匹配的正則表示式 */ publi

Python 網頁JavaScript動態添加的內容(二)

python tab sta exe div int rom ava script 使用 selenium + phantomjs 實現 1、準備環境 selenium(一個用於web應用程測試的工具)安裝:pip install seleniumphantomjs(是

Python 爬蟲技巧1 | 將網頁的相對路徑轉換為絕對路徑

1.背景: 在爬取網頁中的過程中,我對目前爬蟲專案後端指令碼中拼接得到絕對路徑的方法很不滿意,今天很無意瞭解到在python3 的 urllib.parse模組對這個問題有著非常完善的解決策略,真的是上天有眼,感動! 2.urllib.parse模組 This module define

Python 網頁JavaScript動態新增的內容(二)

使用 selenium + phantomjs 實現 1、準備環境 selenium(一個用於web應用程測試的工具)安裝:pip install selenium phantomjs(是一種無介面的瀏覽器,用於完成網頁的渲染)下載:http://phantomjs.or

Python 網頁JavaScript動態新增的內容(一)

當我們進行網頁爬蟲時,我們會利用一定的規則從返回的 HTML 資料中提取出有效的資訊。但是如果網頁中含有 JavaScript 程式碼,我們必須經過渲染處理才能獲得原始資料。此時,如果我們仍採用常規方法從中抓取資料,那麼我們將一無所獲。那麼,通過Web kit可以簡單解決這個

python 網頁的圖片到本地

最近在學習python,順便寫一個爬取網頁中圖片的程式練練手。 主要分為兩個過程: 第一,從給定域名的網頁中爬取圖片的連結 第二,讀取連結對應的圖片,儲存到本地 第一個過程需要匯入utllib包,在

網頁的連結

獲取網頁內容 1、引入庫 import urllib import urllib.request 2、獲取網頁內的所有資料 data = urllib.request.urlopen(“http://www.baidu.com").read() 3、將資料轉換成UTF-8編碼 dat

一個簡單的網路爬蟲---網頁的圖片

這裡貼上py原始碼,這個爬蟲很簡單,爬取網頁的圖片,通過正則表示式匹配對應的圖片的url 然後下載之,基本上也沒有什麼容錯處理,僅供學習之用 # -*- coding: utf-8 -*-       import urllib2   import urllib   im

Python爬蟲——網頁的圖片小試牛刀

Preface:以往爬取文字,這次需要爬取圖片pdf,先上手一個例子,爬取pdf,先取得url,然後通過urllib.urlretrieve函式將url的網頁內容遠端下載到本地,第一個引數為url,第二個引數為檔名(程式碼中有誤),第三個引數為回撥函式,可以顯示下載進度。另

爬蟲練習之迴圈網頁全部連結(requsets同步)

驗證輸入的url是否可正常連線,無法連線提示使用者再次輸入,正常連線則返回url本身 def url_get(): url = input("請輸入要爬取的首頁url:") try

python+selenium+PhantomJS網頁動態加載內容

use for ive comm 自動化測試 mac os x page 影響 blank 一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源,但是設計javascript渲染的頁面卻不能抓取,此時,我們使用web自動化測試化工具Selen

03:requests與BeautifulSoup結合網頁數據應用

fas bsp 2.3 m2e bae DC 信息 type 取數 1.1 爬蟲相關模塊命令回顧   1、requests模塊 1、 pip install requests 2、 response =

JAVA爬蟲網頁資料資料庫,並且去除重複資料

pom檔案 <!-- 新增Httpclient支援 --> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId&

python爬蟲非同步載入網頁資訊(python抓網頁無法通過網頁標籤屬性抓內容

1.問題描述 最近由於學習內容的要求,需要從網頁上抓取一些資料來做分析報告,在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免,最近就遇到了一個比較難的問題: 一般情況下,要抓去網頁上某個標籤上的內容,在通過urllib下

【爬蟲】Scrapy excel500個網址首頁,使用Selenium模仿使用者瀏覽器訪問,將網頁title、url、文字內容組成的item儲存至json檔案

建立含有網址首頁的excel檔案 host_tag_網站名稱_主域名_子域名.xlsx 編輯讀取excel檔案的工具類專案FileUtils 新建專案FileUtils 編輯file_utils.py # -*- coding: utf-8 -*- """

Selenium學習四——利用Python網頁多個頁面的表格資料並存到已有的excel

利用Python爬取網頁多個頁面的表格資料並存到已有的excel中 1、具體要求 獲取牛客網->題庫->線上程式設計->劍指Offer網頁,獲取表格中的全部題目,儲存到本地excel中 2、技術要求 利用Selenium+Python獲取網頁,操

一個鹹魚的Python爬蟲之路(三):網頁圖片

you os.path odin 路徑 生成 存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波,爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

網頁內容:如何提取正文內容 BEAUTIFULSOUP的輸出

總計 排除 XML html pack prettify 樣式 start ack 創建一個新網站,一開始沒有內容,通常需要抓取其他人的網頁內容,一般的操作步驟如下: 根據url下載網頁內容,針對每個網頁的html結構特征,利用正則表達式,或者其他的方式,做文本解析,提取出

常用正則表達式網頁信息及HTML分析總結

logfile mpi 開始 order 標題 ear 爬取網頁 常用 enter Python爬取網頁信息時,經常使用的正則表達式及方法。 1.獲取<tr></tr>標簽之間內容 2.獲取<a href..></a>超鏈接

python網頁圖片

ima com col list https pytho 表達式 images 5% 在Python中使用正則表達式,一個小小的爬蟲,抓取百科詞條網頁的jpg圖片。下面就是我的代碼,作為參考: #coding=utf-8 # __author__ = ‘Hinfa‘ im