1. 程式人生 > >C#實現簡單的網頁爬蟲

C#實現簡單的網頁爬蟲

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;

namespace _2015._5._23通過WebClient類發起請求並下載html
{
    class Program
    {
        static void Main(string[] args)
        {
            #region 抓取網頁郵箱
            //string url = "http://zhidao.baidu.com/link?url=cvF0de2o9gkmk3zW2jY23TLEUs6wX-79E1DQVZG7qaBhEVT_xlh6TO7p0W4qwuAZ_InLymC_-mJBBcpdbzTeq_";
            //WebClient wc = new WebClient();
            //wc.Encoding = Encoding.UTF8;
            //string str = wc.DownloadString(url);
            //MatchCollection matchs=  Regex.Matches(str,@"\
[email protected]
([-\w])+([\.\w])+",RegexOptions.ECMAScript); //foreach (Match item in matchs) //{ // Console.WriteLine(item.Value); //} //Console.WriteLine(matchs.Count); #endregion #region 抓取網頁圖片 //WebClient wc = new WebClient(); //wc.Encoding = Encoding.UTF8; ////下載源網頁程式碼 //string html = wc.DownloadString("http://dongxi.douban.com/?dcs=top-nav&dcm=douban"); //MatchCollection matches= Regex.Matches(html,"<img.*src=\"(.+?)\".*>"); //foreach (Match item in matches) //{ // //下載圖片到指定路徑 // wc.DownloadFile(item.Groups[1].Value,@"c:\mv\"+Path.GetFileName(item.Groups[1].Value)); //} //Console.WriteLine(matches.Count); #endregion 爬一些資訊 WebClient wc = new WebClient(); wc.Encoding = Encoding.UTF8; string html = wc.DownloadString("http://www.lagou.com/"); MatchCollection matches= Regex.Matches(html,"<a.*jobs.*>(.*)</a>"); foreach (Match item in matches) { Console.WriteLine(item.Groups[1].Value); } Console.WriteLine(matches.Count); Console.ReadKey(); } } }

相關推薦

C#實現簡單網頁爬蟲

using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net; using System.Text; using System.Tex

Java基於httpclient獲取網頁資料,實現簡單網路爬蟲

1、pom檔案引入httpclient依賴     <dependency>             <groupId>org.apache.httpcompon

java實現簡單網頁爬蟲:Servlet 搜尋引擎核心爬蟲程式(三)

/**  *  * @author Administrator  *  * JavaSpider 1.6 版本  *  * 1,對所有的目標網址進行抽取,得到目標java檔案,也就是我們需要的java原始檔;  * 2,將所有的java原始檔儲存到對應的java檔案中

Python簡單網頁爬蟲

tab write open python2.x row browser mod err urlopen 由於Python2.x與Python3.x存在很的差異,Python2.x調用urllib用指令urllib.urlopen(), 運行時報錯:AttributeErr

C++實現簡單的文本查詢

ber number map () first begin ifstream adf times 1 該程序將讀取用戶指定的任意文本文件,然後允許用戶從該文件中查找單詞。查詢的結果是該單詞出現的次數,並列出每次出現所在的行。如果某單詞在同一行中多次出現,程序將只顯示該

python實現簡單圖片爬蟲並保存

.com 貪婪模式 web頁面 logs urn 並不是 python 保存 light 先po代碼 #coding=utf-8 import urllib.request #3之前的版本直接用urllib即可,下同 #該模塊提供了web頁面讀取數據的接口,使得我們可以

C#實現簡單的Http請求實例

semaphore bsp .text block 通過 renren www 字節 req 本文實例講述了C#實現簡單的Http請求的方法。分享給大家供大家參考。具體分析如下: 通過.Net中的兩個類HttpWebRequest類,HttpWebResponse類來實現

C#實現簡單獲取及設置Session類

static 相互 如何 相互轉換 per body share line window 本文實例講述了C#實現簡單獲取及設置Session類。分享給大家供大家參考。具體分析如下: 這是一個簡單的C#獲取Session、設置Session類文件,本類主要實現大家最常用的兩

C#實現簡單的冒泡排序

read pro i++ cto bsp con nbsp ces nag 1、C#代碼下:using System;namespace ConsoleApplication1{ class Program { static void Main()

matlab學習 — 實現簡單爬蟲

mage data- imwrite read dai div 小寫 ranking 解析   這裏復雜的情況暫時不考慮。。測試網址為pixiv的每日排行榜 = = url = ‘https://www.pixiv.net/ranking.php?mode=daily

c實現 簡單的文件管理 不含交互

字符 當前 str2 masm 器) 上層 stream file style 實現如下功能: 1、讀取指定目錄下的所有子目錄和文件信息(比如:指定目錄為C:/temp則把此目錄 下的所有子目錄下的文件信息讀出來)2、在C盤創建一個以個人姓名命名的目錄(比如:張三)3、在

C++ 實現簡單命令行學生管理系統

什麽 cos wid 屏幕 cit 環境 iterator choice umeng C++ 實現簡單命令行學生管理系統 貼吧ID: 這把問題不大 編譯環境是macOS。system(“clear”) 在windows下請換成 system(“cls”) #include

c++實現簡單的string類

學得快,忘得快,老師講完了運算子過載這一節然後就帶我們開發一個字串類,我的程式碼也是在理解的基礎上跟著老師敲的,覺得太有意思了!!!趕緊寫部落格總結一下,加深理解,希望我這記性別讓我失望!其實字串也是可以理解為字元陣列,所以在類中有兩個屬性,字串長度len和字元指標,當定義mystring

NodeJs實現簡單爬蟲

1.爬蟲:爬蟲,是一種按照一定的規則,自動地抓取網頁資訊的程式或者指令碼;利用NodeJS實現一個簡單的爬蟲案例,爬取Boss直聘網站的web前端相關的招聘資訊,以廣州地區為例; 2.指令碼所用到的nodejs模組     express     用來搭建

C++實現簡單的檔案I/O操作

檔案 I/O 在C++中比烤蛋糕簡單多了。 在這篇文章裡,我會詳細解釋ASCII和二進位制檔案的輸入輸出的每個細節,值得注意的是,所有這些都是用C++完成的。 一、ASCII 輸出 為了使用下面的方法, 你必須包含標頭檔案<fstream.h>(譯者注:在標準C++中,已

c++實現簡單的Http客戶端協議,WebRequest

      最近要寫一個代理程式,軟體最終要跑在嵌入式裝置上,其中一部分是需要做一個簡單爬蟲程式,用來操作嵌入式裝置的Web服務上的資訊,我不想用第三方的任何庫,如是簡單看了下http協議,用一天時間實現了http協議的客戶端,實現Get,Post,UpFile(檔案上傳)等

C#實現簡單的學生管理系統增刪改查

1.Programs.cs using System; using System.Collections; using System.Collections.Generic; using System.Linq; using System.Text; using Syste

node實現網頁爬蟲

本案例以慕課網為例 在命令列安裝cheerio npm install cheerio 在命令列安裝bluebird npm install bluebird //爬蟲,優雅的非同步程式設計 // 載入http模組 var http = re

python3實現簡單爬蟲

主要實現的是從百度貼吧爬取一些圖片 開啟對應的網頁 主要是使用python下的庫urllib request.urlopen() 開啟目標網頁 read() 讀取網頁資訊 因此最開始程式碼如下: #coding=utf-8 from urllib impo

c#實現簡單文字編譯器

上學期有個程式設計實驗,其中一個是需要實現一個帶介面的簡單文字編輯器。這裡選擇用c#來實現。 頁面設計和具體功能 在檔案處選擇新建一個文字,這裡的文字使用窗體實現載入 有一些快捷鍵:比如字型選擇按鈕,點選以後可以出現一個窗體,實現字型的選擇。但是這裡貌似有點