1. 程式人生 > >Java開源Html解析類庫(轉載)

Java開源Html解析類庫(轉載)

  NekoHTML  NekoHTML是一個簡單地HTML掃描器和標籤補償器(tag balancer) ,使得程式能解析HTML文件並用標準的XML介面來訪問其中的資訊。這個解析器能投掃描HTML檔案並“修正”許多作者(人或機器)在編寫HTML文件過程中常犯的錯誤。NekoHTML能增補缺失的父元素、自動用結束標籤關閉相應的元素,以及不匹配的內嵌元素標籤。NekoHTML的開發使用了Xerces Native Interface (XNI),後者是Xerces2的實現基礎。

更多NekoHTML資訊

 
 JTidy  JTidy 是 HTML Tidy用Java實現的移植版本,提供了一個HTML的語法檢查器和很好的列印功能。類似它的非Java產品,JTidy可以用來清除格式不好和不對的HTM。此外,JTidy提供了對整個HTML的DOM分析器。程式設計師可以將JTidy當作一個處理HTML檔案的DOM解析器來使用。

更多JTidy資訊

  HotSAX  HotSAX是一個快速,小型的footprint, 用於HTML/XML/XHTML的非確認的SAX2解析。它可以在簡單的Web代理、頁面抓取器和爬蟲程式中使用。它類似於Apache Xerces分析器。

更多HotSAX資訊

  Jericho HTML Parser  Jericho HTML Parser是一個簡單而功能強大的Java HTML解析器庫,可以分析和處理HTML文件的一部分,包括一些通用的伺服器端標籤,同時也可以重新生成無法識別的或無效的HTML。它也提供了一個有用的HTML表單分析器。

更多Jericho HTML Parser資訊

  HTML Parser  HTML Parser實現即時HTML語法分析程式。

更多HTML Parser資訊

  Java HTML Parser  HTML Parser提供了一組Tag物件,這些物件可以深入解析一棵可搜尋的結構樹。

更多Java HTML Parser資訊

  TagSoup  TagSoup是一個Java開發符合SAX的HTML解析器.

更多TagSoup資訊

  HtmlRipper  HtmlRipper是一個Java包能夠按照預先定義好的規則設定來從Web頁中抽取動態資料.

更多HtmlRipper資訊

  Cobra  Cobra是一個HTML工具包。它包含一個純Java HTML DOM 分析器和一個頁面表現引擎。Cobra支援HTML4,Javascript 和CSS2。

更多Cobra資訊

  HtmlCleaner  HtmlCleaner是一個開源的Html文件解析器。HtmlCleaner能夠重新排序每個元素然後生成結構良好(Well-Formed)的XML文件。預設它遵循的規則是類似於大部份web瀏覽器為創文件物件模型所使用的規則。然而,使用者可以提供自定義tag和規則組來進行過濾和匹配。

更多HtmlCleaner資訊

  Java Mozilla Html Parser  Java Mozilla Html Parser能夠將html解析成Java Document物件。它是一個基於Mozilla Html解析器封裝的Html解析類庫。因此能夠為開發人員提供一個瀏覽器質量的HTML解析器。

更多Java Mozilla Html Parser資訊

  VietSpider HTMLParser  VietSpider HTMLParser是一個純Java實現的HTML DOM解析器,支援HTML4.0.1。它是一個快速的語法檢查器,利用相對應的結束標籤自動關閉元素,能夠處理匹配錯誤的內聯元素標籤。
VietSpider_HTMLParser.jpg

更多VietSpider HTMLParser資訊

  jsoup  jsoup是一個Java HTML Parser。能夠從URL、檔案或字串解析HTML。利用DOM遍歷或CSS選擇器查詢和抽取資料。能夠操作HTML元素,屬性和文字。能夠依據一個白名單過濾使用者提交的內容。

更多jsoup資訊

  rendersnake  rendersnake是一個用於生成HTML頁面的Java開源類庫,能夠與標準JSP和Spring MVC整合。利用其編寫的Java程式碼具有可維護、易於複用、型別校驗、可測試和簡單的特點。
rendersnake.jpg 收錄時間:2011-02-20 11:16:34

更多rendersnake資訊

  jsoup Cookbook中文版  jsoup是一個基於Java的HTML 解析器,可直接解析某個URL地址、HTML文字內容。它提供了一套非常便利的API,可通過DOM,CSS以及類似於JQuery的操作方法來取出和操作資料。而且還支援HTML5。是一個非常不錯的Java開源專案,為了讓更多人使用和了解這個專案。本人發了點時間將其網站提供的Cookbook翻譯/整理成中文版。
地址: http://www.open-open.com/jsoup

更多jsoup Cookbook中文版資訊

  HTML4J  HTML4J 是一個用於操作HTML文件的Java開源類庫。使用幫助文件: http://informatica.info/projects/html4j/doc/overview.html 收錄時間:2011-10-08 23:37:00

更多HTML4J資訊



出處 http://www.open-open.com/30.htm