用JAVA實現簡單爬蟲多執行緒抓取

阿新 • • 發佈：2018-12-31

在迴圈爬取得基礎上進行多執行緒爬蟲，本程式中使用的三個執行緒，執行緒為實現runnable介面，並使用物件鎖防止併發共同去訪問同一個物件。讓三個執行緒同時爬去同一個url並且得到的新的url不重複。

import java.io.*;
import java.net.*;

public class WebCrawler{

    public static void main(String[] args){
        runcrawler t1=new runcrawler();
        runcrawler t2=new runcrawler();
        runcrawler t3=new 
 runcrawler();
        t1.start();
        t2.start();
        t3.start();     
    }
}

class runcrawler extends Thread{

    String s1="<a href=\"http://";
    String url="http://www.sina.com";
    static int i=0;
    static String [] urlconntion=new String[100];   

    public void run() {

        newCrawler cr=new 
 newCrawler(url,s1,urlconntion);
        String s2=cr.find();
        while(urlconntion[90]==null){
            //執行緒鎖，防止併發導致的執行緒安全
            synchronized(this)
            {
            if(s2==null){
                cr=new newCrawler(url,s1,urlconntion);
                s2=cr.find();
                 }
            System.out 
.println(s2);
            cr=new newCrawler(s2, s1,urlconntion);
            urlconntion[i++]=s2;        
            s2=cr.find();       
            }
        }       
    }   
}

 class newCrawler {

    String url=null;
    String prefix=null;
    //爬去過的url地址集合
    String[] urlconntion=null;

    //爬蟲類的建構函式
    newCrawler(String url,String prefix,String[] urlconntion){

        this.url=url;
        this.prefix=prefix;
        this.urlconntion=urlconntion;

    }

    //根據類的url開始爬取新的url實現迴圈爬取
    public String find(){
        URL u=null;
        URLConnection con=null;
        BufferedReader bfr=null;
        String rpurl=null;
        try {
            u=new URL(url);
            con=u.openConnection();
            //模擬成使用者，訪問部分網站，部分網站會拒絕爬蟲爬取
            con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
            InputStream is=con.getInputStream();
            bfr=new BufferedReader(new InputStreamReader(is));
            String s;
            while((s=bfr.readLine())!=null){
                if(s.indexOf(prefix)>=0)
                     {

                        rpurl=getUrl(s);
                        if(urlrepetition(rpurl)!=-1){
                            return rpurl;
                        }

                     }

            }
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }finally{
            try {
                bfr.close();
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
        }
        return null;

    }

    //判斷url是否被爬去過，如果被爬去可返回-1，如果沒有則返回1
    public int urlrepetition(String rpurl){

        int i=0;
        while(urlconntion[i]!=null){
            if(urlconntion[i++].equals(rpurl)){
                return -1;
            }
        }
        return 1;
    }

    //從爬去過的原始碼中擷取url地址；
    public String getUrl(String s){

        int index1=s.indexOf(prefix);
        s=s.substring(index1+9);
        int index2=s.indexOf("\"");
        s=s.substring(0,index2);
        return s;
    }

}

執行結果：
這裡寫圖片描述

總結：
1.自己剛剛接觸爬蟲，感覺這程式雖然實現了，但是在效率上不是特別高，自己嵌套了三個迴圈以上，這樣在時間和空間上耗費比較多。
2.上一個寫的迴圈爬去的問題還是沒解決。

用JAVA實現簡單爬蟲多執行緒抓取

在迴圈爬取得基礎上進行多執行緒爬蟲，本程式中使用的三個執行緒，執行緒為實現runnable介面，並使用物件鎖防止併發共同去訪問同一個物件。讓三個執行緒同時爬去同一個url並且得到的新的url不重複。 import java.io.*; import j

用java實現ftp的多執行緒下載

1：位元組流結構：每次傳送12＋1024個位元組其中，前七個位元組位元組表示命令第七到第十二個位元組表示後面1024位元組中的有效位元組的長度例如一幀中前12個位元組的內容為"UPFILEN00012"表示要上傳檔名，檔名的長度是12。那麼程式就在後面的1024個位元組中去1

python簡單爬蟲多執行緒爬取京東淘寶資訊教程

1,需要準備的工作，電腦已經安裝好python，如果沒裝，可以執行去https://www.python.org/官網下載，初學者可以安裝輕量級的wingide python開發工具，python安裝成功後配置好環境變數，在dos環境使用pip install 模組將需要用

用WaitForSingleObject（）函式實現簡單的多執行緒互斥訪問

今天是上班第一天，寫了一個簡單的執行緒互斥訪問練習了一下多執行緒。雖然以前寫過，但現在寫還是碰到蠻多問題，比如WaitForSingleObject(）函式加在哪個位置（可以用WaitForSingleObject(）等待前一個執行緒結束後然後開啟下一個執行緒以此達到同步的

java實現簡單web容器(執行緒池)

執行緒池ThreadPool.java package webserver; import java.util.Collection; import java.util.Iterator; import java.util.Vector; /** * 執行緒池 *

Python 爬蟲多執行緒爬取美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工資源來至於，程式碼基於Python 3.5.2 友情提醒：血氣方剛的騷年。請謹慎閱圖！！！謹慎閱圖！！！謹慎閱圖！

簡單的python3 urllib3 多執行緒抓取圖片

#!/usr/bin/env python3 # -*- coding: utf-8 -*- # @author: liukelin [email protected] # 多執行緒抓取圖片 # import urllib3 import string i

python：多執行緒抓取西刺和快站高匿代理IP

　　一開始是打算去抓取一些資料，但是總是訪問次數多了之後被封IP，所以做了一個專門做了個工具用來抓取在西刺和快站的高匿IP。　　執行環境的話是在python3.5下執行的，需要requests庫　　在製作的過程中也參考的以下網上其他人的做法，但是發現很大一部分都不是多執行緒去抓取有點浪費時間了，又或者

python多執行緒抓取網頁內容並寫入MYSQL

自己的第一個多執行緒練習，中間踩了不少坑，程式寫的很渣，但是勉強能實現功能需求了，實際上抓取網頁是多執行緒在MYSQL寫入的時候是加了執行緒鎖的，實際上感覺就不是在多執行緒寫入了，不過作為第一個練習程式就這樣吧，後續部落格還會繼續更新優化版本。## htm

Python requests 多執行緒抓取出現HTTPConnectionPool Max retires exceeded異常

場景：在做爬蟲專案或者是在傳送網路請求的時候，一般都會用到request模組，但是經常會遇到： HTTPConnectionPool Max retires exceeded read t

資料探勘_多執行緒抓取

在這一篇文章中，我們主要來介紹多執行緒抓取資料。多執行緒是以併發的方式執行的，在這裡要注意，Python的多執行緒程式只能執行在一個單核上以併發的方式執行，即便是多核的機器，所以說，使用多執行緒抓取可以極大地提高抓取效率下面我們以requests為例介紹多執行緒抓取，然後在

goLang 多執行緒抓取網頁資料

突然有個想法想用goLang快速的抓取網頁資料,於是想到了多執行緒進行頁面抓取 package main import ( "fmt" "log" "net/http" "os" "st

記一次java socket學習(簡單實用多執行緒，實現多對多群聊)

學習過程是艱苦，學習結束是快樂的目錄用 [TOC]來生成目錄：本來想寫一些文字描述描述，可是想不出來說啥。。。所以直接記錄程式碼了。。。程式碼塊因為喜歡把常量都提取出來所以上來就是常量類： public class Const

java 使用RandomAssessFile類多執行緒切片下載檔案之伺服器如何實現

因為之前寫的都是客戶端，不需要去管服務端，直接把檔案放伺服器裡面，直接訪問，伺服器(tomcat之類得)就會自動幫我們切片，之類的。然後我自己想測試一些直接訪問檔案和使用控制器io讀寫返回檔案哪個快一些(肯定是io)https://blog.csdn.net/yali_a

最簡單的實現Linux C++多執行緒的互斥訪問

#include <stdlib.h> #include <string.h> #include <iostream> #include <unistd.h> #include <errno.h> #include <pthrea

java網路程式設計(二)複用Socket連線以及使用多執行緒完成多個客戶端的連線

在前面的示例中，客戶端中建立了一次連線，只發送一次資料就關閉了，這就相當於撥打電話時，電話打通了只對話一次就關閉了，其實更加常用的應該是撥通一次電話以後多次對話，這就是複用客戶端連線。那麼如何實現建立一次連線，進行多次資料交換呢？其實很簡單，建立連線以後，

Java中兩種多執行緒實現方式的區別

在程式開發中用到多執行緒，正統的方法是使用Runnable介面，相比繼承Thread類，Runnable介面有以下兩點好處： 1、避免單繼承機制的侷限，一個類可以實現多個介面 2、適用於資源的共享下面以買票程式為例，分析繼承Thread類和實現Runnable介面的不同；

Java的兩種多執行緒實現方式

一、建立多執行緒的兩種方式 Java中，有兩種方式可以建立多執行緒： 1 通過繼承Thread類，重寫Thread的run()方法，將執行緒執行的邏輯放在其中 2 通過實現Runnable介面，例項化Thread類在實際應用中，我們經常用到多執行緒

Linux C TCPSocket 傳輸檔案簡單例項-多執行緒實現

在Linux下使用C語言TCPSocket實現簡單檔案傳輸，包括客戶端和伺服器端，其中，伺服器端使用多執行緒實現同時接收多個客戶端傳送的檔案。傳送檔案內容之前，首先需要將檔名和長度資訊傳送到伺服器，為了便於區分，採用傳送結構體的方式，設定標誌位，1標識資料域

Java高併發與多執行緒（二）-----執行緒的實現方式

今天，我們開始Java高併發與多執行緒的第二篇，執行緒的實現方式。通常來講，執行緒有三種基礎實現方式，一種是繼承Thread類，一種是實現Runnable介面，還有一種是實現Callable介面，當然，如果我們鋪開，擴充套件一下，會有很多種實現方式，但是歸根溯源，其實都是這幾種實

用JAVA實現簡單爬蟲多執行緒抓取

相關推薦