Java爬蟲網頁抓取圖片

阿新 • • 發佈：2019-02-10

昨天突然想搞下抓取網上的圖片所以寫了下

import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.net.MalformedURLException;
import java.net.SocketException;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Image {
	
	public static void main(String args[]) throws SocketException {
		String str = GetUrl("http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E9%AB%98%E5%9C%86%E5%9C%86");
		List<String> ouput = GetMatcher(str, "src=\"([\\w\\s./:]+?)\"");

		for (String temp : ouput) {
			System.out.println(temp);
		}
		System.out.println("....................");
		for (int i = 0; i < ouput.size(); i++) {
			String aurl = ouput.get(i);
			URL url;
			try {
				url = new URL(aurl);
				// 開啟URL連線
				URLConnection con = (URLConnection) url.openConnection();
				// 得到URL的輸入流
				InputStream input = con.getInputStream();
				if (input.available() > 0) {
					// 設定資料緩衝
					byte[] bs = new byte[1024 * 2];
					// 讀取到的資料長度
					int len;
					// 輸出的檔案流儲存圖片至本
					String[] a = aurl.split("\\/");
					String name = a[a.length - 1];
					if (name.contains(".png") || name.contains(".jpeg") || name.contains(".jpg")|| name.contains(".gif")|| name.contains(".bmp")) {
					String dir = "E:\\Image\\gaoyuanyuan";
					File file = new File(dir, name);
					OutputStream os = new FileOutputStream(file);
					while ((len = input.read(bs)) != -1) {
						os.write(bs, 0, len);
					}
					os.close();
					input.close();}
				} else if (input.available() == 0) {
					System.out.println("與伺服器的連結已中斷");
					break;
				}
			} catch (MalformedURLException e) {
				
				e.printStackTrace();
			} catch (IOException e) {
				
				e.printStackTrace();
			}
			System.out.println("————————————————————————單張抓取完畢——————————————————————————");

		}
		System.out.println("————————————————————————全部抓取完畢——————————————————————————");
		
	}
	public static String GetUrl(String inUrl) {
		StringBuilder sb = new StringBuilder();
		try {
			URL url = new URL(inUrl);
			BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));

			String temp = "";
			while ((temp = reader.readLine()) != null) {
				// System.out.println(temp);
				sb.append(temp);
			}
		} catch (MalformedURLException e) {
			// TODO 自動生成的 catch 塊
			e.printStackTrace();
		} catch (IOException e) {
			// TODO 自動生成的 catch 塊
			e.printStackTrace();
		}
		return sb.toString();
	}

	public static List<String> GetMatcher(String str, String url) {
		List<String> result = new ArrayList<String>();
		Pattern p = Pattern.compile(url);// 獲取網頁地址
		Matcher m = p.matcher(str);
		while (m.find()) {
			// System.out.println(m.group(1));
			result.add(m.group(1));
		}
		return result;
	}

}

這個url自己定義，本地儲存地址也是自己定義，上面的url是百度的，但是抓不到幾張，原因還在研究中。這個是一次抓取所有的png，jpeg，jpg型別的圖片。

Java爬蟲網頁抓取圖片

昨天突然想搞下抓取網上的圖片所以寫了下 import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io

Java爬蟲——phantomjs抓取ajax動態載入網頁

（說好的第二期終於來了 >_<） 1、phantomjs介紹 phantomjs實現了一個無介面的webkit瀏覽器。雖然沒有介面，但dom渲染、js執行、網路訪問、canvas/svg繪製等功能都很完備，在頁面抓取、頁面輸出、自動化測試等方面有廣泛的應用。

JAVA實現網頁抓取(htmlunit)

準確條件加入依賴jar包 <dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId&

教您使用java爬蟲gecco抓取JD全部商品資訊

轉自：http://www.geccocrawler.com/demo-jd/ gecco爬蟲如果對gecco還沒有了解可以參看一下gecco的github首頁。gecco爬蟲十分的簡單易用，JD全部商品資訊的抓取9個類就能搞定。 JD網站的分析

教您使用java爬蟲gecco抓取JD全部商品資訊（三）

詳情頁抓取 @Gecco(matchUrl="http://item.jd.com/{code}.html", pipelines="consolePipeline") public classProductDetailimplementsHtmlBean{ private static fin

wget 網頁爬蟲,網頁抓取工具

前言如何在linux上或者是mac上簡單使用爬蟲或者是網頁下載工具呢，常規的我們肯定是要去下載一個軟體下來使用啦，可憐的這兩個系統總是找不到相應的工具，這時wget出來幫助你啦!!!wget本

java爬蟲入門——從一個網頁抓取原始碼

import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWriter; import java.io.IOException; import java.io.InputStreamRea

java之 25天網路爬蟲抓取圖片(二)

[size=medium][b]正則表示式練習[/b][/size]import java.util.Arrays;import java.util.Collections;import java.util.List;import java.util.TreeSet;publ

Java實現網路爬蟲001-抓取網頁

package com.okayisoft.okayspider.demo; import org.apache.commons.httpclient.HttpClient; import org.

Python3網絡爬蟲(一)：利用urllib進行簡單的網頁抓取

robot 資源 urlopen 解碼支付寶編碼方式只需要服務器 net 一、預備知識 1.Python3.x基礎知識學習：可以在通過如下方式進行學習： (1)廖雪峰Python3教程(文檔)： URL：http://www.liaoxue

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

【python爬蟲】抓取連結網頁內的文字（第一步定位超連結文字）

第一步：匯入模組>>> import re >>> from bs4 import BeautifulSoup >>> import urllib.request ---------------------------

Python爬蟲：抓取內涵段子1000張搞笑圖片-上篇（小爬蟲誕生篇）

出於興趣，在《幕課網：Python 開發簡單爬蟲》上學習了點兒 Python 爬蟲的入門知識，跟著視訊教程抓取了百度百科的 1000 個頁面。然後自己嘗試抓取一個國外網站的資料，但可能是由於最近召開

python 網路爬蟲抓取圖片

#-*- encoding: utf-8 -*- ''' Created on 2014-4-24 @author: Leon Wong ''' import urllib2 import urllib import re import time import os im

[Python][爬蟲03]requests+BeautifulSoup例項:抓取圖片並儲存

上一篇中，安裝和初步使用了requests+BeautifulSoup，感受到了它們的便捷。但之前我們抓取的都是文字資訊，這次我們準備來抓取的是圖片資訊。 >第一個例項首先，審查網頁元素：因此其結構就為： <di

基於Java的網路爬蟲實現抓取網路小說（一）

package novel.spider.impl; import java.util.ArrayList; import java.util.List; import org.apache.http.client.methods.CloseableHttpResponse; import org.apa

【Python網路爬蟲】Python維基百科網頁抓取（BeautifulSoup+Urllib2）

引言：從網路提取資料的需求和重要性正在變得越來越迫切。每隔幾個星期，我都會發現自己需要從網路中提取資料。例如，上週我們正在考慮建立一個關於網際網路上可用的各種資料科學課程的熱度和情緒指數。這不僅需要找到新的課程，而且還要抓住網路的評論，然後在

python爬蟲抓取圖片

關於python爬蟲一直以來是很著名的，林林總總也有很多方法，大致起來也就是一個原理。下面我來介紹一下我用的BeautifulSoup獲取的，正則獲取也很簡單，在這裡只說一下BeautifulSoup方法，使用伯樂線上網站作為參考的例子程式碼如下 #encoding

網頁抓取：PHP實現網頁爬蟲方式小結

抓取某一個網頁中的內容，需要對DOM樹進行解析，找到指定節點後，再抓取我們需要的內容，過程有點繁瑣。LZ總結了幾種常用的、易於實現的網頁抓取方式，如果熟悉JQuery選擇器，這幾種框架會相當簡單。一、Ganon 測試:抓取我的網站首頁所有class屬性值是foc

Python3 爬蟲（一）-- 簡單網頁抓取

序一直想好好學習一下Python爬蟲，之前斷斷續續的把Python基礎學了一下，悲劇的是學的沒有忘的快。只能再次拿出來濾了一遍，趁熱打鐵，借鑑眾多大神的爬蟲案例，加入Python網路爬蟲的學習大軍~~~ 爬蟲之前在著手寫爬蟲之前，要先把其需要的知識線路理清楚。

Java爬蟲網頁抓取圖片

相關推薦