最新手寫圖片爬蟲（針對千庫網和一個福利網站）

阿新 • • 發佈：2018-12-10

前言：由於前一段時期需要從網站上扒一些圖片下來，因為css，js都好扒，就是圖片數量眾多，需要程式碼實現，在網上找了一堆以實現的程式碼，要麼沒有用，要麼功能不是自己想要的，乾脆自己寫一個，寫的時候發現還挺簡單的，而且不單單可以下載圖片，只要是網站資源都可以，只不過需要針對單個網站去寫程式碼，因為每個網站的html佈局都不一樣。

1.圖片下載工具類：檔案路徑自己設定

package com.example.demo.util.netbug.downloadImage;

/**
 * Descripition:image download util
 * Created by jin.tang on 2018/9/7......
 */

import lombok.extern.java.Log;

import java.io.ByteArrayOutputStream;
import java.io.DataInputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.text.SimpleDateFormat;
import java.util.Arrays;
import java.util.Date;

@Log
public class DownloadPicFromURL {
    private static String[] imgType = {".jpg", ".jpeg", ".bmp", ".png", ".tif", ".gif", ".fpx", ".svg", ".psd", ".pcx", ".tga", ".exif", "psd", "cdr", "ufo", "raw"};//bmp,jpg,png,tif,gif,pcx,tga,exif,fpx,svg,psd,cdr,pcd,dxf,ufo,eps,ai,raw,WMF,webp

    public static void main(String[] args) {
        String url = "http://36.33.40.131:8200/uploadFile//userImg/1531368430530title.png";
        String path = "d:/html/img/";
        downloadPicture(url, path);
    }

    public static Boolean coverString(String url, String[] imgType) {
        Boolean flag = false;
        // 查詢是否存在圖片格式
        for (String type : imgType) {
            if (url.indexOf(type) != -1 || url.toUpperCase().indexOf(type.toUpperCase()) != -1) {
                flag = true;
                break;
            }
        }
        return flag;
    }


    //連結url下載圖片
    public static void downloadPicture(String urlList, String path) {
        path = path + new SimpleDateFormat("yyyyMMdd").format(new Date()) + "_" + urlList.substring(urlList.lastIndexOf("/") + 1);
        if(!coverString(urlList, imgType)){
            path=path+".jpg";
        }
        URL url = null;
        try {
            url = new URL(urlList);
            DataInputStream dataInputStream = new DataInputStream(url.openStream());

            FileOutputStream fileOutputStream = new FileOutputStream(new File(path));
            ByteArrayOutputStream output = new ByteArrayOutputStream();

            byte[] buffer = new byte[1024];
            int length;

            while ((length = dataInputStream.read(buffer)) > 0) {
                output.write(buffer, 0, length);
            }
            fileOutputStream.write(output.toByteArray());
            dataInputStream.close();
            fileOutputStream.close();
        } catch (MalformedURLException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        log.info("img: " + urlList.substring(urlList.lastIndexOf("/") + 1) + " download " + path + " done.....");
    }
}

2、爬蟲實現類

package com.example.demo.util.netbug.downloadImage;

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.*;
import lombok.extern.java.Log;

import java.util.List;


/**
 * Descripition:spider for image,batch get image url,then you can download ---just for 千庫網
 * Created by jin.tang on 2018/9/7......
 */
@Log
public class SpiderForInternetImage {
    public static void doSearchResourceToQianku(HtmlPage htmlpage) {
        try {
            // 根據名字得到一個表單，檢視上面這個網頁的原始碼可以發現表單的名字叫“f”
            //final HtmlForm form = htmlpage.getFormByName("f");
            // 同樣道理，獲取”百度一下“這個按鈕
            //final HtmlSubmitInput button = form.getInputByValue("百度一下");
            // 得到搜尋框
            //final HtmlTextInput textField = form.getInputByName("q1");
            // 最近周星馳比較火呀，我這裡設定一下在搜尋框內填入”周星馳“
            //textField.setValueAttribute("周星馳");
            // 輸入好了，我們點一下這個按鈕
            //final HtmlPage nextPage = button.click();
            // 我把結果轉成String
            //String result = nextPage.asXml();

            //當前頁的圖片下載
            List<HtmlElement> a = htmlpage.getByXPath("//a[@class='db']");
            a.stream().forEach(href -> {
                //單個a標籤內所有img的下載
                DomNodeList<HtmlElement> imgs = href.getElementsByTagName("img");
                doDownload(imgs);
            });

            //跳轉下一頁的頁面圖片下載
            List<HtmlAnchor> next = htmlpage.getByXPath("//a[@class='downPage']");
            HtmlPage nextPage_ = next.get(0).click();
            doSearchResourceToQianku(nextPage_);

//            for(HtmlAnchor ach:achList){
//                System.out.println(ach.getHrefAttribute());
//                ach.click();
//            }

            //DomNodeList<HtmlElement> p = a.getElementsByTagName("p");
            //List<HtmlElement> byXPath = p.get(0).getByXPath("span");
            //DomNodeList<HtmlElement> imgs = byXPath.get(0).getElementsByTagName("img");

        } catch (Exception e) {
            log.info("error happen ->" + e.getMessage());
            e.printStackTrace();
        }
    }

    public static void doSearchResourceToMmonly(WebClient webclient, HtmlPage htmlpage) {
        try {
            //當前頁的圖片下載
            List<HtmlElement> divs = htmlpage.getByXPath("//div[@class='ABox']");
            divs.stream().forEach(div -> {
                //單個div標籤內所有img的下載
                DomNodeList<HtmlElement> a = div.getElementsByTagName("a");
                //取第一個a標籤，裡面包含圖片連結頁面
                String currentPageUrl = a.get(0).getAttribute("href");
                //點選進入該頁面
                try {
                    HtmlPage currentHtmlpage = webclient.getPage(currentPageUrl);
                    doDownloadCHildPage(currentHtmlpage, 1);
                } catch (Exception e) {
                    e.printStackTrace();
                }
            });

            //跳轉下一頁的頁面圖片下載
            List<HtmlElement> div_jump = htmlpage.getByXPath("//div[@id='pageNum']");
            DomNodeList<HtmlElement> as=div_jump.get(0).getElementsByTagName("a");
            log.info(""+as.get(as.size()-2));
            HtmlElement nexta = as.get(as.size()-2);
            HtmlPage np=nexta.click();
            doSearchResourceToMmonly(webclient,np );
        } catch (Exception e) {
            log.info("error happen ->" + e.getMessage());
            e.printStackTrace();
        }
    }

    public static void doDownloadCHildPage(HtmlPage currentHtmlpage, int times) throws Exception {
        List<HtmlElement> div_2 = currentHtmlpage.getByXPath("//div[@class='big-pic']");
        HtmlElement bigDiv = div_2.get(0);//大圖
        //每頁只下一張大圖
        DomNodeList<HtmlElement> imgs = bigDiv.getElementsByTagName("img");
        doDownloadToMmonly(imgs);

        //調到下一頁的大圖頁面
        List<HtmlElement> li = currentHtmlpage.getByXPath("//li[@id='nl']");
        // DomNodeList<DomElement> li = currentHtmlpage.getElementsById("nl");
        DomNodeList<HtmlElement> a_ = li.get(0).getElementsByTagName("a");
        HtmlElement next_ = a_.get(0);

        //只下前8張圖片，因為每套圖數量不一樣，不好統一
        if (times <=8) {
            HtmlPage nextPage_ = next_.click();
            doDownloadCHildPage(nextPage_, times + 1);
        }
    }

    //單個標籤內子img標籤的迴圈下載
    public static void doDownload(DomNodeList<HtmlElement> imgs) {
        //  http://bpic.588ku.com/back_pic/03/72/92/6657b9a240d3d1f.jpg!/fh/300/quality/90/unsharp/true/compress/true
        System.out.println("總共" + imgs.size() + " 張圖片 , 開始下載到本地 路徑為 : ");
        // 遍歷 下載圖片到本地
        for (HtmlElement img : imgs) {
            if ("".equals(img.getAttribute("data-original")) || !img.getAttribute("data-original").contains("http")) {
                log.info("current image src ==> " + img.getAttribute("data-original") + " :is not right!");
            } else {
                log.info("current image src ==> " + img.getAttribute("data-original") + " :is  right!");
                String imgUrl = img.getAttribute("data-original").substring(0, img.getAttribute("data-original").contains("!") ? img.getAttribute("data-original").lastIndexOf("!") : img.getAttribute("data-original").length());
                DownloadPicFromURL.downloadPicture(imgUrl, "d:/html/img/");
            }
        }
    }

    //單個標籤內子img標籤的迴圈下載
    public static void doDownloadToMmonly(DomNodeList<HtmlElement> imgs) {
        //  http://bpic.588ku.com/back_pic/03/72/92/6657b9a240d3d1f.jpg!/fh/300/quality/90/unsharp/true/compress/true
        System.out.println("總共" + imgs.size() + " 張圖片 , 開始下載到本地 路徑為 : ");
        // 遍歷 下載圖片到本地
        for (HtmlElement img : imgs) {
            if ("".equals(img.getAttribute("src")) || !img.getAttribute("src").contains("http")) {
                log.info("current image src ==> " + img.getAttribute("src") + " :is not right!");
            } else {
                log.info("current image src ==> " + img.getAttribute("src") + " :is  right!");
                String imgUrl = img.getAttribute("src").substring(0, img.getAttribute("src").contains("!") ? img.getAttribute("src").lastIndexOf("!") : img.getAttribute("src").length());
                DownloadPicFromURL.downloadPicture(imgUrl, "d:/html/img/");
            }
        }
    }

    public static void main(String[] args) {
        try {
            // 得到瀏覽器物件，直接New一個就能得到，現在就好比說你得到了一個瀏覽器了
            WebClient webclient = new WebClient();

            // 這裡是配置一下不載入css和javaScript,配置起來很簡單，是不是
            webclient.getOptions().setCssEnabled(false);
            webclient.getOptions().setJavaScriptEnabled(false);

            //做的第一件事，去拿到這個網頁，只需要呼叫getPage這個方法即可
            HtmlPage htmlpage = webclient.getPage("http://588ku.com/beijing/0-0-pxnum-0-8-0-0-0-1/?hd=205");
            doSearchResourceToQianku(htmlpage);

//            HtmlPage htmlpage = webclient.getPage("http://www.mmonly.cc/mmtp/");
//            doSearchResourceToMmonly(webclient, htmlpage);


        } catch (Exception e) {
            log.info("error happen ->" + e.getMessage());
            e.printStackTrace();
        }
    }
}

3、

<!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit -->
<dependency>
    <groupId>net.sourceforge.htmlunit</groupId>
    <artifactId>htmlunit</artifactId>
    <version>2.32</version>
</dependency>

4、福利網站的下載結果：

手把手教你寫網路爬蟲（2）：迷你爬蟲架構

語言&環境有需要Python學習資料的小夥伴嗎?小編整理【一套Python資料、原始碼和PDF】，感興趣者可以加學習群：548377875或者加小編微信：【mmp9972】反正閒著也是閒著呢，不如學點東西啦~~ 語言：帶足彈藥，繼續用Python開路！ t

實現數字手寫圖片識別（純程式碼）

假設環境都OK import scipy.special class NeuralNetWork: def __init__(self,inputnodes,hiddennodes,outputnodes,learningrate): #初始化網路

手把手教你寫網路爬蟲（8）：徹底解決亂碼問題

字元編解碼是爬蟲裡必學的一項知識，在我們的爬蟲生涯中早晚會爬到亂碼的網頁，與其遇到時驚慌失措，不如早學早好，徹底避免亂碼問題。字元編碼簡介什麼是字符集在介紹字元編碼之前，我們先了解下什麼是字符集。字元(Character)是各種文字和符號的總稱，包括各國家文字、標點

2018用Python寫網路爬蟲（視訊+原始碼+資料）

課程目標實現Python寫網路爬蟲入門適用人群資料零基礎愛好者,職場新人 ,在校大學生課程簡介 1.基本Http請求以及驗證方式分析 2.Python用於處理Html格式資料beautifulsoup模組 3.Pyhton的request

手把手教你寫網路爬蟲（5）：PhantomJS實戰

有需要Python學習資料的小夥伴嗎?小編整理【一套Python資料、原始碼和PDF】，感興趣者可以加學習群：548377875或者加小編微信：【mmp9972】反正閒著也是閒著呢，不如學點東西啦~~ 如果想看到更多專案，並不能像網易雲音樂那樣點“下一頁”翻頁，而是

手把手教你寫網路爬蟲（1）：網易雲音樂歌單

Selenium：是一個強大的網路資料採集工具，其最初是為網站自動化測試而開發的。近幾年，它還被廣泛用於獲取精確的網站快照，因為它們可以直接執行在瀏覽器上。Selenium 庫是一個在WebDriver 上呼叫的API。WebDriver 有點兒像可以載入網站的瀏覽器，但是它也可以像BeautifulSoup

python爬蟲（爬取蜂鳥網高畫素圖片）_空網頁,錯誤處理

__author__ = 'AllenMinD' import requests,urllib,os from bs4 import BeautifulSoup ans = 1 #counting

【爬蟲】手把手教你寫網路爬蟲（1）

介紹什麼是爬蟲？先看看百度百科的定義: 簡單的說網路爬蟲（Web crawler）也叫做網路鏟（Web scraper）、網路蜘蛛（Web spider），其行為一般是先“爬”到對應的網頁上，再把需要的資訊“鏟”下來。為什麼學習爬蟲？看到這裡，有人就要問了：Google、百度等

最小割經典題（兩個點依附在一起的情況）poj3469

minimum 兩個 color computer upd 情況 nim %d struct Dual Core CPU Time Limit: 15000MS Memory Limit: 131072K Total Submissions: 25099

java爬蟲一（分析要爬取數據的網站）

java爬蟲一、獲取你想要抓取的網站地址：http://www.zhaopin.com/然後打開控制臺，F12，打開。我用的是Chrome瀏覽器，跟個人更喜歡Chrome的控制臺字體。找到搜索欄對應的html標簽：http://sou.zhaopin.com/jobs/searchresult.ashx?jl

原生爬蟲（爬取熊貓直播人氣主播排名）

show () 字節碼 content see http color open span ‘‘‘‘ This is a module ‘‘‘ import re from urllib import request # 斷點調試 class Spider()

JAVA生成帶環的單向連結串列（針對leetcode是否有環那道題）

leetcode上面有一道題是判斷單向連結串列是否有環，方法基本上都是用快慢指標。但是我突然想測試一下，但是不知道怎麼生成有環的連結串列，別說有環的，就是生成個連結串列都挺難的。所以自己就在網上找了一下，發現生成連結串列還是有的。但是沒有生成帶環的連結串列，所以自己總結了一下，寫了

C++讀寫XML檔案（使用tinyxml庫）

使用以下程式碼之前，需要下載TinyXml庫，幷包含到工程下 #include <stdio.h> #include "tinyxml.h" #include <iostream> #include <cstring> usin

爬蟲（抓取靜態頁面和動態頁面的區別，get請求和post請求的區別）

靜態頁面：非結構化資料：HTML 處理方式：正則表示式，xpath, beautifulsoup4 靜態頁面中的資料都包含在網頁的HTML中（一般都是get請求）所以可以直接在網頁的HTML中提取資料關鍵詞一般都以查詢字串的方式拼接在URL中分析URL的變

Python求最長迴文字串（三重迴圈遍歷所有字串新）

前兩天自己寫了下，雖然對了，但是思路不太好，網上看了遍歷的思路，瞬間感覺之前好蠢，雖然本質上我的程式碼也是遍歷，但是思路不好。正確思路就是先遍歷出所有長度大於等於2的字串，然後在逐一判斷這些字串是不是迴文字串就行了，思路清晰了，程式碼就簡單多了，10分鐘就寫完了。 d

最長迴文串（leetcode簡單篇四百零九題）

給定一個包含大寫字母和小寫字母的字串，找到通過這些字母構造成的最長的迴文串。在構造過程中，請注意區分大小寫。比如 “Aa” 不能當做一個迴文字串。注意: 假設字串的長度不會超過 1010。示例 1: 輸入: “abccccdd” 輸出:

webpack 最簡單的入門教程（基礎的檔案打包以及實現熱載入）

webpack安裝我們可以用npm安裝webpack，要用npm我們就需要安裝node.js環境，作為我們的平臺。下載node.js 下載好之後安裝，我們在cmd或者GitBashHere中輸入 npm -v node -v 如果出現版本號

mongodb安裝php擴充套件（針對php版本為7.X的情況）

mongodb安裝php擴充套件。在php版本為5.x 的時候，安裝的其實是mongo.so檔案擴充套件。當php版本為7.x的時候，安裝的是mongodb.so檔案擴充套件。如果安裝php5.x版本的擴充套件，移步連結： -----------------

從零開始寫Python爬蟲 --- 1.1 requests庫的安裝與使用

從零開始寫Python爬蟲 --- 1.1 requests庫的安裝與使用先來說說爬蟲的原理：爬蟲本質上是模擬人瀏覽資訊的過程，只不過他通過計算機來達到快速抓取篩選資訊的目的。所以我們想要寫一個爬蟲，最基本的就是要將我們需要抓取資訊的網頁原

最新手寫圖片爬蟲（針對千庫網和一個福利網站）

相關推薦