crawler學習篇（jar爬取）

阿新 • • 發佈：2018-12-12

新建maven專案

匯入依賴的jar包

<dependencies>
		<!-- 新增Httpclient支援 -->
		<dependency>
			<groupId>org.apache.httpcomponents</groupId>
			<artifactId>httpclient</artifactId>
			<version>4.5.2</version>
		</dependency>

		<!-- 新增jsoup支援 -->
		<dependency>
			<groupId>org.jsoup</groupId>
			<artifactId>jsoup</artifactId>
			<version>1.10.1</version>
		</dependency>

		<dependency>
			<groupId>log4j</groupId>
			<artifactId>log4j</artifactId>
			<version>1.2.16</version>
		</dependency>

	</dependencies>

需要爬取的網址：http://central.maven.org/

/**
 * 爬取網路資源的類
 * @author Admin
 *
 *1、通過httpclient和jsoup爬取網頁，分析所有url
 *2、過濾無效url，迭代解析
 *3、利用非同步執行緒池對爬取的效能進行優化
 *
 */
public class StartCrawler {
	
	// 要過濾掉的url字尾
	public static String[] excludeUrls = new String[] { ".pom", ".xml", ".md5", ".sha1", ".asc", ".gz", ".zip", "../" };
	//佇列   先進先出
	public static Queue<String> waitForCrawlerUrls = new LinkedList<String>();// 等待再次爬取的Url
	public static long total = 0;//計數
	public static boolean exeFlag = true;//預設解析爬取佇列裡面的網址
	

	/**
	 * 通過網址url，利用httpclient技術，獲得當前url對應的網路內容
	 * @param url
	 */
//	public static void parseUrl(String url,String realDir) {
	public static void parseUrl() {
//		利用非同步執行緒池   對爬取的效能進行優化
		//存放10個非同步執行緒的執行緒池
		ExecutorService executorService = Executors.newFixedThreadPool(10);//例項化一個執行緒池 池中放10個執行緒
		while(exeFlag) {//需要滿足的條件
			if(waitForCrawlerUrls.size() > 0) {//佇列裡有連結
				executorService.execute(new Runnable() {
					//使用執行緒池中的非同步執行解析邏輯
					public void run() {
						
						while(waitForCrawlerUrls.size() > 0) {
							String url = waitForCrawlerUrls.poll();//（隊列當中的取值）摘取佇列的第一個元素，並且移除
							
							//CloseableHttpClient可以被用於從客戶端傳送HTTP請求到服務端
							CloseableHttpClient httpClient = HttpClients.createDefault();//獲取httpclient的一個例項
							HttpGet httpGet = new HttpGet(url);//獲得是什麼請求
							//設定連線時長5秒和等待伺服器響應資料時長8秒
							RequestConfig config = RequestConfig.custom().setConnectTimeout(5000).setSocketTimeout(8000).build();
							httpGet.setConfig(config);
							CloseableHttpResponse response = null;
							
							//執行
							try {
								//要抓異常是因為避免訪問超時
								response = httpClient.execute(httpGet);
								if(response != null) {
									HttpEntity entity = response.getEntity();//獲取內容
									//凡是text/html（網頁）這一型別的需要進行再次解析
									if("text/html".equals(entity.getContentType().getValue())) {
										String pageContent = EntityUtils.toString(entity,"utf-8");//獲取網頁內容
										parsePageContent(pageContent,url);//再次解析頁面的內容
									}

								}else {//未得到響應
									System.out.println("連線時間過長");
									addUrl(url);//再次把連結加到隊列當中去
								}
								
							} catch (ClientProtocolException e) {
								e.printStackTrace();
							} catch (IOException e) {
								e.printStackTrace();
							}finally {
								try {
									if(response != null) {
										response.close();
									}
									
									if(httpClient != null) {
										httpClient.close();
									}
									
								} catch (IOException e) {
									e.printStackTrace();
								}
							}
						}
						
					}
				});
			}else {//佇列裡沒有連結
				if(((ThreadPoolExecutor)executorService).getActiveCount() == 0) {//要求執行緒池中沒有還在執行的執行緒
					exeFlag = false;
					break;
				}
			}
		}
		
		//避免解析不過來讓執行緒休眠
		try {
			Thread.sleep(1000);//(給執行緒解析的時間，避免出現問題)
		} catch (InterruptedException e) {
			e.printStackTrace();
		}
		
	}
	
	/**
	 * 通過網頁爬蟲爬蟲框架jsoup對網頁內容進行解析（再次解析頁面的內容）
	 * @param pageContent
	 */
	public static void parsePageContent(String pageContent,String realDir) {
		Document doc = Jsoup.parse(pageContent);//jsp頁面中的doc樹
		Elements aEles = doc.select("a");//通過doc獲取a標籤
		for (Element aEle : aEles) {
			String aHref = aEle.attr("href");
//			System.out.println(realDir + aHref);//所有的連結地址
			
			String url = realDir + aHref;
			/**
			 * 連結分為三種（以這個為例）
			 * 目標連結（jar）
			 * 過濾的連結（不需要的連結）
			 * 迭代解析的連結（需要再次解析的連結）
			 */
			
			if(null == url || "".equals(url) ) return;
			
			boolean f = true;//預設就是我想要的連結
			for (String excludeUrl : excludeUrls) {
				if(url.endsWith(excludeUrl)) {//url.endsWith(excludeUrl)  連結url以excludeUrl結尾
					f = false;//不是需要的連結
					break;
				}
			}
			
			if(f && url.endsWith(".jar")) {
				System.out.println("爬了第"+(++total)+"個目標，連結地址url為："+ url);
			}else {//迭代解析的連結
				addUrl(url);//加入到佇列裡面去，需要再一次爬取的
			}
		}
	}

	/**
	 * 新增到爬蟲佇列裡面，等待再一次爬取
	 * @param url
	 */
	private static void addUrl(String url) {
		System.out.println(url + "新增成功");
		waitForCrawlerUrls.add(url);
	}
	
	/**
	 * 給佇列提供初始值
	 */
	public static void init() {
		String url = "http://central.maven.org/maven2/HTTPClient/HTTPClient/";
		addUrl(url);
		addUrl("http://central.maven.org/maven2/commons-cli/commons-cli/");
		parseUrl();
	}
	

	public static void main(String[] args) {
		init();
	}
	
	//未進行優化的程式碼
	public static void version1() {

		//連結地址來自於隊列當中
		while(waitForCrawlerUrls.size() > 0) {
			String url = waitForCrawlerUrls.poll();//（隊列當中的取值）摘取佇列的第一個元素，並且移除
			
			//CloseableHttpClient可以被用於從客戶端傳送HTTP請求到服務端
			CloseableHttpClient httpClient = HttpClients.createDefault();//獲取httpclient的一個例項
			HttpGet httpGet = new HttpGet(url);//獲得是什麼請求
			CloseableHttpResponse response = null;
			
			//執行
			try {
				//要抓異常是因為避免訪問超時
				response = httpClient.execute(httpGet);
				HttpEntity entity = response.getEntity();//獲取內容
//				System.out.println(entity.getContentType().toString());
//				System.out.println(entity.getContentType().getValue());
				//凡是text/html（網頁）這一型別的需要進行再次解析
				if("text/html".equals(entity.getContentType().getValue())) {
					String pageContent = EntityUtils.toString(entity,"utf-8");//獲取網頁內容
					parsePageContent(pageContent,url);//再次解析頁面的內容
//					System.out.println(pageContent);
				}
				
			} catch (ClientProtocolException e) {
				e.printStackTrace();
			} catch (IOException e) {
				e.printStackTrace();
			}finally {
				try {
					if(response != null) {
						response.close();
					}
					
					if(httpClient != null) {
						httpClient.close();
					}
					
				} catch (IOException e) {
					e.printStackTrace();
				}
			}
		}
		
	}
	
	
}

crawler學習篇（jar爬取）

新建maven專案匯入依賴的jar包 <dependencies>  <dependency> <groupId>org.apache.httpcomponents</grou

《鳥哥的Linux私房菜-基礎學習篇（第三版）》（三）

shell 怎樣學習 track col 網絡基礎環境的使用發生企業網 clas 第2章 Linxu怎樣學習 1. Linux當前的應用角色當前的Linux常見的應用可略分為企業應用和個人應用雙方面。首先談了企業

計算機核心（參考書籍：鳥哥的Linux私房菜--基礎學習篇（第三版））

1.作用本質上是一組程式，可以執行不同的功能；不同的作業系統具有不同的核心，如Linux\windows\Mac 管控硬體、提供合理的計算機系統資源分配，如CPU資源、記憶體使用資源，提供相關的功能。 2.功能 1.系統呼叫介面 2.程式管理 3.記憶

《鳥哥的Linux私房菜基礎學習篇（第三版）》習題與解析（四）

第四部分 Linux使用者管理第14章 Linux賬號管理與ACL許可權設定 ·root的UID與GID是多少？基於這個理由，我要讓test這個賬號具有root的許可權，應該怎麼做？答：root的UID與GID都是0，UID只有0和非0兩種，0代表系統管理員。所以要讓t

Python3.X 爬蟲實戰（併發爬取）

1 背景在這一系列開始前我們就說過，簡單的爬蟲很容易，但是要完成一個高效健壯的爬蟲不是一個簡單的事情，這一系列我們已經明白了爬蟲相關的如下核心知識點。基於上面這幾篇其實我們把爬蟲當作自己便利的開發工具來使用基本上是夠了（譬如老闆讓你定期留意觀

零基礎掌握百度地圖興趣點獲取POI爬蟲（python語言爬取）（基礎篇）

region map 基礎輸入 filter put mark page -h 實現目的：爬取昆明市範圍內的全部中學數據，包括名稱、坐標。先進入基礎篇，本篇主要講原理方面，並實現步驟分解，為python代碼編寫打基礎。因為是0基礎開始，所以講得會比較詳細。如實現目的

零基礎掌握百度地圖興趣點獲取POI爬蟲（python語言爬取）（進階篇）

好，現在進入進階篇教程。 1.獲取昆明市的bounds值看到下面這個東西了吧？在文字框裡寫入昆明市，或者其他的行政區劃地名，北京市、朝陽區、大河溝子村什麼的。這也是通過呼叫百度地圖開放平臺API實現的。實現起來很簡單，把下面這段程式碼複製到一個

爬蟲學習之17：爬取拉勾網網招聘資訊（非同步載入+Cookie模擬登陸）

很多網站需要通過提交表單來進行登陸或相應的操作，可以用requests庫的POST方法，通過觀測表單原始碼和逆向工程來填寫表單獲取網頁資訊。本程式碼以獲取拉勾網Python相關招聘職位為例作為練習。開啟拉鉤網，F12進入瀏覽器開發者工具，可以發現網站使用了A

零基礎掌握百度地圖興趣點獲取POI爬蟲（python語言爬取）（程式碼篇）

好，現在進入高階程式碼篇。目的：爬取昆明市中學的興趣點POI。關鍵詞：中學已有ak：9s5GSYZsWbMaFU8Ps2V2VWvDlDlqGaaO 昆明市座標範圍：左下角：24.390894，102.174112 右上角：26.5486

在路上---學習篇（一）Python 數據結構和算法 (4) --希爾排序、歸並排序

改進 randint 循環打印中一隨機關鍵詞 shel 條件獨白：　　希爾排序是經過優化的插入排序算法，之前所學的排序在空間上都是使用列表本身。而歸並排序是利用增加新的空間，來換取時間復雜度的減少。這倆者理念完全不一樣，註定造成的所消耗的時間不同以及空間上的不同

初識機器學習-理論篇（慕課筆記）

最好框架要求它的推薦系統利用評估 das 離散什麽是機器學習定義：利用計算機從歷史數據中找出規律，並把這些規律用到對未來不確定場景的決策。從數據中尋找規律尋找規律：概率學統計學統計學方法：抽樣 -> 統計 -> 假設檢驗隨著計算

Java多線程學習篇（二）synchronized

參考 .get name syn his col 靜態方法 runtest 作用範圍 synchronized 有二種修飾方法：修飾一個方法 synchronized public void runTest{ /**/ } 修飾一個代碼塊 publi

Java多線程學習篇（三）Lock

參考簡單 which sys lin int some call row Lock 是Java多線程的一個同步機制，用來控制線程對共享資源的訪問。線程在執行同步方法或者代碼塊之前必須先獲得一個鎖。 Lock 的 lock() 和 unlock() 方法; 　　lock()

Linux學習總結（四十二）lnmp訪問控制篇

lnmp 防盜鏈訪問控制反向代理 1 nginx 配置防盜鏈防盜鏈的原理我們在lamp中已經有介紹，這裏不再重復，直接看配置過程。核心語句為 valid_referers none blocked server_names *.test.com ; if ($invalid

Django學習篇（web框架的由來）

httpd return 出現 acc IT outer AI pytho 定義 Python的WEB框架有 Django、Tornado、Flask 等多種，Django相較與其他WEB框架其優勢為：大而全，框架本身集成了ORM、模型綁定、模板引擎、緩存、Sessio

Django學習篇（第二部）

adding 學習 AD odi 時也 hello ret order pytho 執行字符串表示的函數，並為該函數提供全局變量本篇的內容從題目中就可以看出來，就是為之後剖析tornado模板做準備， #!usr/bin/env pyth

Linux學習總結（四十五）mysql 基本操作上篇

msyql1. 首次登入數據庫 /usr/local/mysql/bin/mysql -uroot我們發現直接登入了，不需要驗證。因為我們還沒有給root 用戶設置密碼，默認是沒有密碼的。如果不指定用戶，則默認是root用戶登陸。我們發現僅僅登陸一個數據庫，要輸入如此長的路徑，太辛苦了，我們可以把該路徑放進環

Linux學習總結（四十七）NFS服務配置上篇

nfs rpc 1 NFS基本架構 NFS network file system 也就是網絡文件系統。NFS最早由Sun公司開發，分2,3,4三個版本，2和3由Sun起草開發，4.0開始Netapp公司參與並主導開發，最新為4.1版本NFS數據傳輸基於RPC協議，RPC為Remote Proced

Linux學習總結（五十五）監控zabbix部署上篇

zabbix 中文亂碼一 zabbix監控介紹 C/S架構，基於C++開發，監控中心支持web界面配置和管理單server節點可以支持上萬臺客戶端最新版本3.4，官方文檔https://www.zabbix.com/manuals5個組件zabbix-server 監控中心，接收客戶端上報信息，負責

Java操作HDFS(Linux) 學習篇（二）

java操作Linux系統上的HDFS檔案系統一、首先：在Linux上搭建HDFS偽分散式環境，啟動命令 ------>sh start-all.sh,顯示啟動成功介面如下：二、win 上Java開發環境使用的是IDEA ，Java遠端操作H

crawler學習篇（jar爬取）

相關推薦