1. 程式人生 > >使用RegularExpressions去除HTML標簽的字符串

使用RegularExpressions去除HTML標簽的字符串

服務 body 能夠 測試 ati art clas 就是 strong

1、需求場景

  因為需要做一個推送數據的服務,需要調用webservice,由於某種原因需要使用用http發送soap請求,而推送的數據是json格式的,在測試過程中發現請求失敗,服務端webservice返回400錯誤。返回400錯誤,應該就是請求的數據格式不對,由於我這個情況特殊,請求的數據既要能夠格式化為xml格式,裏面某個節點裏的內容還要能夠正確格式化為json字符串,發現請求的數據裏有HTML標簽,需要過濾掉再請求。

2、實現功能

  使用RegularExpressions正則表達式:

  . 匹配除 "\n" 之外的任何單個字符。

  * 匹配前面的子表達式零次或多次。

  ? 匹配前面的子表達式零次或一次。

只要把文章的"<.*?>"替換為String.Empty即可。

代碼實現 

using System.Text.RegularExpressions;

public static string RemoveHtmlTag(string articleString)
{
      return Regex.Replace(articleString, "<.*?>", string.Empty);
}       

使用RegularExpressions去除HTML標簽的字符串