1. 程式人生 > >jsoup分析a標籤絕對路徑

jsoup分析a標籤絕對路徑

下面程式碼引用自WebCollector:
cn.edu.hfut.dmic.webcollector.model.Links

import org.jsoup.nodes.Element;
……

 public Links addByRegex(Document doc, RegexRule regexRule) {
        Elements as = doc.select("a[href]");
        for (Element a : as) {
            String href = a.attr("abs:href");
            if
(regexRule.satisfy(href)) { this.add(href); } } return this; }

目前是新增doc中滿足regexRule的link,提供下一級深度的爬取
很多網頁中a標籤href給的是相對路徑,這裡通過jsoup方便的獲取了絕對路徑