1. 程式人生 > >c#抓取頁面亂碼解決辦法

c#抓取頁面亂碼解決辦法

最近在做一個頁面採集的過程中發現,頁面抓取後亂碼,而且時好時不好。然後發現編碼也沒有問題,原來是GZIP壓縮導致的。

在朋友們的熱心幫助下終於解決了。下面就貼程式碼吧,抓取gzip及其它頁面防止亂碼。

c#net如何抓取gzip及其它頁面防止亂碼

核心程式碼如下:

C#程式碼 
  1. using (HttpWebResponse response = (HttpWebResponse)req.GetResponse())  
  2.         {  
  3.             if (response.ContentEncoding.ToLower().Contains("gzip"))  
  4.             {  
  5.                 using
     (GZipStream stream = new GZipStream(response.GetResponseStream(), CompressionMode.Decompress))  
  6.                 {  
  7.                     using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))  
  8.                     {  
  9.                         sHTML = reader.ReadToEnd();  
  10.                     }  
  11.                 }  
  12.             }  
  13.             else if (response.ContentEncoding.ToLower().Contains("deflate"))  
  14.             {  
  15.                 using (DeflateStream stream = new DeflateStream(response.GetResponseStream(), CompressionMode.Decompress))  
  16.                 {  
  17.                     using
     (StreamReader reader = new StreamReader(stream, Encoding.UTF8))  
  18.                     {  
  19.                         sHTML = reader.ReadToEnd();  
  20.                     }  
  21.                 }  
  22.             }  
  23.             else  
  24.             {  
  25.                 using (Stream stream = response.GetResponseStream())  
  26.                 {  
  27.                     using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))  
  28.                     {  
  29.                         sHTML = reader.ReadToEnd();  
  30.                     }  
  31.                 }  
  32.             }  
  33.         }  

完整前臺程式碼gethtml.aspx

C#程式碼 
  1. <%@ Page Language="C#" AutoEventWireup="true" CodeFile="gethtml.aspx.cs" Inherits="gethtml" ValidateRequest="false" %>  
  2. <!DOCTYPE html>  
  3. <html xmlns="http://www.w3.org/1999/xhtml">  
  4. <head runat="server">  
  5. <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>  
  6.     <title>抓取頁面</title>  
  7. </head>  
  8. <body>  
  9.     <form id="form1" runat="server">  
  10.     <div>  
  11.         url地址:<asp:TextBox ID="url" runat="server" Text="http://www.baidu.com" style="width:400px;"></asp:TextBox><asp:Button ID="Button1" runat="server" Text="抓取" OnClick="Button1_Click" /><br />  
  12.         <textarea name="code" id="code" runat="server" style="width:530px;height:300px;"></textarea>  
  13.     </div>  
  14.     </form>  
  15. </body>  
  16. </html>  

完整後臺程式碼gethtml.aspx.cs

C#程式碼 
  1. using System;  
  2. using System.Net;  
  3. using System.IO;  
  4. using System.Text;  
  5. using System.IO.Compression;  
  6. public partial class gethtml : System.Web.UI.Page  
  7. {  
  8.     protected void Page_Load(object sender, EventArgs e)  
  9.     {          
  10.     }  
  11.     public static string GetHtmlWithUtf(string url)  
  12.     {  
  13.         if (!(url.Contains("http://") || url.Contains("https://")))  
  14.         {  
  15.             url = "http://" + url;  
  16.         }  
  17.         HttpWebRequest req = (HttpWebRequest)HttpWebRequest.Create(url);  
  18.         req.UserAgent = "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705;)";  
  19.         req.Accept = "*/*";  
  20.         req.Headers.Add("Accept-Language""zh-cn,en-us;q=0.5");  
  21.         req.ContentType = "text/xml";  
  22.         string sHTML = string.Empty;  
  23.         using (HttpWebResponse response = (HttpWebResponse)req.GetResponse())  
  24.         {  
  25.             if (response.ContentEncoding.ToLower().Contains("gzip"))  
  26.             {  
  27.                 using (GZipStream stream = new GZipStream(response.GetResponseStream(), CompressionMode.Decompress))  
  28.                 {  
  29.                     using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))  
  30.                     {  
  31.                         sHTML = reader.ReadToEnd();  
  32.                     }  
  33.                 }  
  34.             }  
  35.             else if (response.ContentEncoding.ToLower().Contains("deflate"))  
  36.             {  
  37.                 using (DeflateStream stream = new DeflateStream(response.GetResponseStream(), CompressionMode.Decompress))  
  38.                 {  
  39.                     using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))  
  40.                     {  
  41.                         sHTML = reader.ReadToEnd();  
  42.                     }  
  43.                 }  
  44.             }  
  45.             else  
  46.             {  
  47.                 using (Stream stream = response.GetResponseStream())  
  48.                 {  
  49.                     using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))  
  50.                     {  
  51.                         sHTML = reader.ReadToEnd();  
  52.                     }  
  53.                 }  
  54.             }  
  55.         }  
  56.         return sHTML;  
  57.     }  
  58.     protected void Button1_Click(object sender, EventArgs e)  
  59.     {  
  60.         string urlstr = url.Text;  
  61.         code.InnerHtml = GetHtmlWithUtf(urlstr);  
  62.     }  
  63. }  

(完)