1. 程式人生 > >Java後臺怎麼處理帶HTML標籤(富文字)資料的兩種方法

Java後臺怎麼處理帶HTML標籤(富文字)資料的兩種方法

前言:本人在實現業務邏輯的時候,需要在後臺把帶HTML標籤(富文字)資料的文章擷取成文章的摘要,涉及到怎麼處理帶HTML標籤資料 ,在網上一共找到了兩種解決方法:

1、呼叫HtmlParser外掛

HtmlParser 簡介

htmlparser是一個純的java寫的html解析的庫,主要用於改造或提取html。用來分析抓取到的網頁資訊是個不錯的選擇,遺憾的是參考文件太少。
專案主頁:http://htmlparser.sourceforge.net/
API文件: http://htmlparser.sourceforge.net/javadoc/index.html參考部落格:http://blog.csdn.net/fancy3013/article/details/50965112

2、引用一個方法直接去掉HTML標籤

這也是我在專案所用的,是別人寫好的一個方法。

public String parseHtml(String html,int length) {
        
    	if(html == null || html == "") {
    		return html = "空";
		}else {
			if(html.length()<length){
	            return html;
	        }else {
	            /*
	             * <.*?>為正則表示式,其中的.表示任意字元,*?表示出現0次或0次以上,此方法可以去掉雙頭標籤(雙頭針對於殘缺的標籤)
	             * "<.*?"表示<尖括號後的所有字元,此方法可以去掉殘缺的標籤,及後面的內容
	             * " ",若有多種此種字元,可用同一方法去除
	             */
	            html = html.replaceAll("<.*?>", " ").replaceAll("", "");
	            html = html.replaceAll("<.*?", "");
	            return (html.substring(0, length) + "...");        	
	        }
		}
    }

參考部落格:https://www.cnblogs.com/cnsevennight/p/4468055.html