1. 程式人生 > >Java中正則表示式去除html標籤

Java中正則表示式去除html標籤

    注:這是Java正則表示式去除html標籤方法。

    private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // 定義script的正則表示式

    private static final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; // 定義style的正則表示式
    private static final String regEx_html = "<[^>]+>"; // 定義HTML標籤的正則表示式
    private static final String regEx_space = "\\s*|\t|\r|\n";// 定義空格回車換行符

    private static final String regEx_w = "<w[^>]*?>[\\s\\S]*?<\\/w[^>]*?>";//定義所有w標籤

/**
     * @param htmlStr
     * @return 刪除Html標籤
     * @author LongJin
     */
    public static String delHTMLTag(String htmlStr) {
        Pattern p_w = Pattern.compile(regEx_w, Pattern.CASE_INSENSITIVE);
        Matcher m_w = p_w.matcher(htmlStr);
        htmlStr = m_w.replaceAll(""); // 過濾script標籤


        Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
        Matcher m_script = p_script.matcher(htmlStr);
        htmlStr = m_script.replaceAll(""); // 過濾script標籤


        Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
        Matcher m_style = p_style.matcher(htmlStr);
        htmlStr = m_style.replaceAll(""); // 過濾style標籤


        Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
        Matcher m_html = p_html.matcher(htmlStr);
        htmlStr = m_html.replaceAll(""); // 過濾html標籤


        Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);
        Matcher m_space = p_space.matcher(htmlStr);
        htmlStr = m_space.replaceAll(""); // 過濾空格回車標籤


        htmlStr = htmlStr.replaceAll("&nbsp;", ""); //過濾&nbsp;
        return htmlStr.trim(); // 返回文字字串
    }

相關推薦

Java表示式去除html標籤

    注:這是Java正則表示式去除html標籤方法。     private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // 定義sc

html字串去除標籤,字串利用表示式去除html標籤

html字串是儲存在伺服器的s='<li><a href="http://www.waiqin365.com/p-page-293.html">標題<span class="new">new</span></a>&l

js表示式去除HTML標籤

1,得到網頁上的連結地址: string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]

python表示式去除html標籤

使用python的re模組,正則表示式去除html標籤,程式碼如下: import re html = '<pre class="line mt-10 q-content" accuse="qContent">\ 目的是通過第一次soup.find按class

表示式去除html標籤

大部分部落格網站的首頁文章的內容都是截取了文章的一部分,然後點選“檢視更多”才能看完整的文字。所以,擷取字串是必不可少的。 但是如果我們直接用 substring 擷取,會出現很多問題。比如樣式不會改變,加粗的,文字顏色都不會去掉。還有就是一個 html標籤如<str

java表示式去除html所有的標籤和特殊HTML字元

關於java正則表示式去除html中所有的標籤和特殊HTML字元,結合我所做的專案總結的經驗: 總共分為三種:第一種適用於適用短的文章,將文章用正則表示式的方式拼接到程式碼中,有些繁瑣,其實不太實用。第二種就是直接將文件引入,進行更改,但是有一個小缺點,就是文件中的格式可能是utf-8格式的

js 表示式去除html字元所有的標籤(img標籤除外)

廢話不多說,直接上程式碼:description.replace(/<(?!img).*?>/g, ""); 如果保留img,p標籤,則為:description.replace(/<

java/android 表示式去除所有HTML標籤

protected string str = "<table><tr><td>sdasasdsdd</td></tr></table><br><p>sds</p>&l

java表示式的瞭解與實踐記錄

Pattern pattern = Pattern.compile("^\\S+/q/"); Matcher matcher = pattern.matcher(resultString); String qrcode=""; while(matcher.find()){ String path

Java表示式相關類Pattern和Matcher的使用

在Java中,java.util.regex包定義了正則表示式使用到的相關類,其中最主要的兩個類為:Pattern、Matcher:   Pattern 編譯正則表示式後建立一個匹配模式;   Matcher 使用Pattern例項提供的正則表示式對目標字串進行匹

Java 表示式

字元類: [abc] a、b 或 c [^abc] 任何字元,除了abc [a-zA-Z] a 到 z 或 A 到 Z ,兩頭的字母包括在內 [0-9] 0到9 的字元都包括 預定義字元類: . 任何字元 \d 數字:[0-9] 示例:判斷手機號的規則: String regex = “

表示式替換HTML標籤小寫為大寫

c#在獲取游標時focus方法和select方法有什麼不同呢datagridview的列的DefaultCellStyle.Format設定問題c#在獲取游標時focus方法和select方法有什麼不同呢datagridview的列的DefaultCellStyle.Form

表示式匹配HTML標籤

<script> //匹配HTML標籤 方法一: var str = '<p class="odd" id="odd">123</p>'; var pattern = /<\/?[a-zA-Z]+(\s+[a-zA-

1000行程式碼徒手寫表示式引擎【1】--JAVA表示式的使用

簡介: 本文是系列部落格的第一篇,主要講解和分析正則表示式規則以及JAVA中原生正則表示式引擎的使用。在後續的文章中會涉及基於NFA的正則表示式引擎內部的工作原理,並在此基礎上用1000行左右的JAVA程式碼,實現一個支援常用功能的正則表示式引擎。它支援貪婪匹配和懶惰匹配;支援零寬度字元(如“\b”, “\B

表示式去除a標籤和img標籤原始碼

public class TestString {  public static void main(String[] args)  {   String s = "<a href=hjkhkhhk>daafadfafdadfa</a></a><img src='d

Java表示式匹配的語法規則

, package com.fsti.icop.util.regexp; import java.util.regex.Matcher; import java.util.regex.Pattern; public final class RegExpValidatorUt

表示式替換 html 標籤

/** * 此方法描述的是:字串的替換 * @param string 需要替換的字串 * @param oldString 被替換的字串 * @param newString 新字串 * @author 作者 E-mail: [em

java表示式驗證日期

/** *正則表示式驗證日期格式     包括潤二月 **/ // public static void main(String[] args) { //  Pattern p = Pattern //      .compile("^((\\d{2}(([02468][

JAVA表示式的二次轉義

需求:格式化金額,替換伺服器返回的格式化字串中的”{0}”為金額 public class Test { public static void main(String[] args) { String unformattedMoney

java表示式工具類:Pattern和Macher

原地址 java.util.regex是一個用正則表示式所訂製的模式來對字串進行匹配工作的類庫包。 1.簡介: java.util.regex是一個用正則表示式所訂製的模式來對字串進行匹配工作的類庫包。 它包括兩個類:Pattern和Matcher