1. 程式人生 > >去除html格式,獲取文字

去除html格式,獲取文字

 /**
     * 去掉所有的HTML,獲取其中的文字資訊 
     * @param htmlText
     * @return
     */
    public static String GetHtmlText(String htmlText)   
    {
        String regEx_html = "<[^>]+>"; // 定義HTML標籤的正則表示式 
        Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);  
        Matcher m_html = p_html.matcher(htmlText);
        htmlText = m_html.replaceAll(""); // 過濾HTML標籤
        return htmlText;
    }

 

/**
     * 獲取HTML檔案裡面的IMG標籤的SRC地址
     * @param htmlText 帶html格式的文字
     */
    public static List<String> GetHtmlImageSrcList(String htmlText)   
    {
        List<String> imgSrc = new ArrayList<String>();
        Matcher m = Pattern.compile("src=\"?(.*?)(\"|>|\\s+)").matcher(htmlText);
        while(m.find())
        {    
            imgSrc.add(m.group(1));
        }
        return imgSrc;
    }