Java後臺怎麼處理帶HTML標籤(富文字)資料的兩種方法
阿新 • • 發佈:2019-02-19
前言:本人在實現業務邏輯的時候,需要在後臺把帶HTML標籤(富文字)資料的文章擷取成文章的摘要,涉及到怎麼處理帶HTML標籤資料 ,在網上一共找到了兩種解決方法:
1、呼叫HtmlParser外掛
HtmlParser 簡介
htmlparser是一個純的java寫的html解析的庫,主要用於改造或提取html。用來分析抓取到的網頁資訊是個不錯的選擇,遺憾的是參考文件太少。專案主頁:http://htmlparser.sourceforge.net/
API文件: http://htmlparser.sourceforge.net/javadoc/index.html參考部落格:http://blog.csdn.net/fancy3013/article/details/50965112
2、引用一個方法直接去掉HTML標籤
這也是我在專案所用的,是別人寫好的一個方法。
public String parseHtml(String html,int length) { if(html == null || html == "") { return html = "空"; }else { if(html.length()<length){ return html; }else { /* * <.*?>為正則表示式,其中的.表示任意字元,*?表示出現0次或0次以上,此方法可以去掉雙頭標籤(雙頭針對於殘缺的標籤) * "<.*?"表示<尖括號後的所有字元,此方法可以去掉殘缺的標籤,及後面的內容 * " ",若有多種此種字元,可用同一方法去除 */ html = html.replaceAll("<.*?>", " ").replaceAll("", ""); html = html.replaceAll("<.*?", ""); return (html.substring(0, length) + "..."); } } }
參考部落格:https://www.cnblogs.com/cnsevennight/p/4468055.html