HtmlParser應用,使用Filter從爬取到的網頁中獲取需要的內容

阿新 • • 發佈：2019-02-14

/** * 在文字中通過正則進行匹配 * * @param url 請求處理的url * @param encoding 字元編碼 * @param regex 待匹配的正則表示式 */ public static void regexStringFilter(String url,String encoding,String regex){ try { Parser parser = new Parser(); parser.setURL(url);

if(null==encoding){ parser.setEncoding(parser.getEncoding()); }else{ parser.setEncoding(encoding); } //OrFilter是結合幾種過濾條件的‘或’過濾器 NodeFilter filter = new RegexFilter(regex); NodeList list = parser.extractAllNodesThatMatch(filter);

for(int i=0; i<list.size();i++){ Node node = (Node)list.elementAt(i); System.out.println("link is :" + node.toHtml()); } } catch (Exception e) { e.printStackTrace(); } } /** * 在連結地址中進行正則匹配,返回的是Link結點 * *

@param url 請求url * @param encoding 字元編碼 * @param regex 待匹配的正則表示式 */ public static void linkTagRegexFilter(String url,String encoding,String regex){ try { Parser parser = new Parser(); parser.setURL(url); if(null==encoding){ parser.setEncoding(parser.getEncoding()); }else{ parser.setEncoding(encoding); } //OrFilter是結合幾種過濾條件的‘或’過濾器 NodeFilter filter = new LinkRegexFilter(regex); NodeList list = parser.extractAllNodesThatMatch(filter); for(int i=0; i<list.size();i++){ Node node = (Node)list.elementAt(i); System.out.println("link is :" + node.toHtml()); } } catch (Exception e) { e.printStackTrace(); } } public static void main(String[] args) { String url = "F:/dennisit/email.txt"; String emailRegex = "[a-zA-Z0-9_-][email protected]\\w+\\.[a-z]+(\\.[a-z]+)?"; regexStringFilter(url, "UTF-8", emailRegex); System.out.println("-------------------------------------------"); linkTagRegexFilter(url, "UTF-8", emailRegex); }

HtmlParser應用,使用Filter從爬取到的網頁中獲取需要的內容

HtmlParser應用,使用Filter從爬取到的網頁中獲取需要的內容

Python 爬取網頁中JavaScript動態添加的內容（二）

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

Python 爬取網頁中JavaScript動態新增的內容（二）

Python 爬取網頁中JavaScript動態新增的內容（一）

python 爬取網頁中的圖片到本地

爬取網頁中的連結

一個簡單的網路爬蟲---爬取網頁中的圖片

Python爬蟲——爬取網頁中的圖片小試牛刀

爬蟲練習之迴圈爬取網頁中全部連結(requsets同步)

python+selenium+PhantomJS爬取網頁動態加載內容

03：requests與BeautifulSoup結合爬取網頁數據應用

JAVA爬蟲爬取網頁資料資料庫中,並且去除重複資料

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

【爬蟲】Scrapy 爬取excel中500個網址首頁，使用Selenium模仿使用者瀏覽器訪問，將網頁title、url、文字內容組成的item儲存至json檔案

Selenium學習四——利用Python爬取網頁多個頁面的表格資料並存到已有的excel中

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

網頁內容爬取：如何提取正文內容 BEAUTIFULSOUP的輸出

常用正則表達式爬取網頁信息及HTML分析總結

python爬取網頁圖片

HtmlParser應用,使用Filter從爬取到的網頁中獲取需要的內容

相關推薦