Java爬蟲學習《一、爬取網頁URL》

阿新 • • 發佈：2018-11-02

導包，如果是用的maven，新增依賴：

        <dependency>
            <groupId>commons-httpclient</groupId>
            <artifactId>commons-httpclient</artifactId>
            <version>3.1</version>
        </dependency>
        <dependency>
            <groupId>commons-httpclient</groupId>
            <artifactId>commons-httpclient</artifactId>
            <version>3.1</version>
        </dependency>
        <dependency>
            <groupId>commons-httpclient</groupId>
            <artifactId>commons-httpclient</artifactId>
            <version>3.1</version>
        </dependency>

Java程式碼：

package com.ai.rai.group.system;

import java.io.*;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * @version 1.0
 * @ClassName RetrivePage
 * @Description
 * @Author 74981
 * @Date 2018/10/19 14:32
 */
public class RetrivePage {

    // 設定代理伺服器
//    static {
//        // 設定代理伺服器的 IP 地址和埠
//        httpClient.getHostConfiguration().setProxy("10.21.67.39", 8088);
//    }

    public static void downloadPage(String path){
        URL url;
        URLConnection urlconn;
        BufferedReader br = null;
        PrintWriter pw = null;
        //url匹配規則
        String regex = "https://[\\w+\\.?/?]+\\.[A-Za-z]+";
        Pattern p = Pattern.compile(regex);
        try {
            url = new URL(path);//爬取的網址
            urlconn = url.openConnection();
            //將爬取到的連結放到D盤的SiteURL檔案中
            pw = new PrintWriter(new FileWriter("D:/SiteURL.txt"), true);
            br = new BufferedReader(new InputStreamReader(
                    urlconn.getInputStream()));
            String buf;
            while ((buf = br.readLine()) != null) {
                Matcher buf_m = p.matcher(buf);
                while (buf_m.find()) {
                    pw.println(buf_m.group());
                }
            }
            System.out.println("爬取成功^_^");
        } catch (MalformedURLException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                br.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
            pw.close();
        }
    }

    /**
     * 測試程式碼
     */
    public static void main(String[] args) {
        // 抓取 這個人部落格 首頁，輸出
        try {
            RetrivePage.downloadPage("https://blog.csdn.net/SELECT_BIN");
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}

控制檯輸出：

輸出檔案：

Java爬蟲學習《一、爬取網頁URL》

導包，如果是用的maven，新增依賴： <dependency> <groupId>commons-httpclient</groupId> <artifactId>commons

[Java爬蟲] 使用 Jsoup + HttpClient 爬取網頁圖片

一、前言把一篇圖文並茂的優秀文章全部爬取下來，就少不了 Java 爬蟲裡邊的圖片爬取技術了。很多人都用來爬取美女圖片，但是筆者覺得這有傷大雅。下面筆者使用它來爬取 CSDN 【今日推薦】文章附帶的圖片二、程式碼、依賴筆者對本程式碼經過多次

[Java爬蟲] 使用 Xpath + HtmlUnit 爬取網頁基本資訊

一、前言使用 Jsoup + HttpClient （組合一）基本可以爬取很多我們需要的資訊了，Xpath + HtmlUnit （組合二）的組合更是強大，無論是從選擇上，還是從解析上，都可以勝任組合一的。下面列舉一個簡單的例子，主要展示了其主要的技術：①模

Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時

import urllib.request import re,xlwt,datetime class csdn_spider(): def __init__(self): self.c = 0 def sava_data(self,name,class_num,price

靜覓爬蟲學習筆記8-爬取貓眼電影

nal rip score item 之前 req exceptio pool html 　　不知道是不是我學習太晚的原因，貓眼電影這網站我用requests進行爬取源碼直接返回給我一個您的訪問被禁止。作為萌新的我登時就傻了，還好認真聽了之前的課，直接換selenium抓了

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

1.背景：在爬取網頁中的過程中，我對目前爬蟲專案後端指令碼中拼接得到絕對路徑的方法很不滿意，今天很無意瞭解到在python3 的 urllib.parse模組對這個問題有著非常完善的解決策略，真的是上天有眼，感動！ 2.urllib.parse模組 This module define

一起學爬蟲——使用Beautiful Soup爬取網頁！

要想學好爬蟲，必須把基礎打紮實，之前釋出了兩篇文章，分別是使用XPATH和requests爬取網頁，今天的文章是學習Beautiful Soup並通過一個例子來實現如何使用Beautiful Soup爬取網頁。什麼是Beautiful Soup Beautiful Soup是一款高效

一個月入門Python爬蟲學習，輕鬆爬取大規模資料

利用爬蟲我們可以獲取大量的價值資料，從而獲得感性認識中不能得到的資訊，這篇文章給大家帶來了一個月入門Python學習,爬蟲輕鬆爬取大規模資料，感興趣的朋友一起看看吧資料獲取方式：Python技術學習QQ群832339352 新增即可免費獲取！ Python爬蟲為

Python3 Scrapy框架學習一：爬取貓眼Top100榜

以下操作基於Windows平臺。開啟CMD命令提示框：輸入如下命令：開啟專案裡的items.py檔案，定義如下變數，用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your

爬蟲練習一：爬取睿奢圖片

爬取網站：睿奢-套裝合集-私房定製目標：爬取並儲存該網站分類下每個主題的所有圖片 python版本：python 3.6 使用庫：urllib，Beautifulsoup，os，random，re，time 對網站進行訪問檢視首先需要通過瀏覽器對目標網站進行訪問，瞭解該網站的頁面

python爬蟲【一】爬取文字

我們在安裝py是建議如果使用windows不要安裝原生的py因為windows的c編譯器原因會使某些套件安裝起來有麻煩也就是安裝anaconda版本的pyhttps://www.anaconda.com/download/#windows py官網下載的是原生版本https://www

python爬蟲學習之定向爬取股票資訊

一、功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊輸出：儲存到檔案中技術路線：requests-bs4-re 二、選取原則：股票資訊靜態存在於HTML頁面中，非js程式碼生成，沒有robots協議限制三、程式的結構設計

java爬蟲（Jsoup）爬取某站點評論

在上一篇中，我們抓取到了新聞的標題，超連結和摘要，這次我們通過新聞的超連結，進入新聞的評論頁，然後爬取評論！先看下評論頁的標籤：主要是尋找id為“art_content”的標籤下的 id為“text”下的“div”標籤。程式碼： p

python網路爬蟲學習(二)一個爬取百度貼吧的爬蟲程式

今天進一步學習了python網路爬蟲的知識，學會了寫一個簡單的爬蟲程式，用於爬取百度貼吧的網頁並儲存為HTML檔案。下面對我在實現這個功能時的程式碼以及所遇到的問題的記錄總結和反思。首先分析實現這個功能的具體思路: 通過對貼吧URL的觀察，可以看出貼吧中的

Python3爬蟲（一）抓取網頁的html

因為程式碼只有幾行，所以可以先貼程式碼： import urllib.request url = r'http://douban.com' res = urllib.request.urlopen(url) html = res.read().decode('utf-

一起學爬蟲——使用Beautiful Soup爬取網頁

要想學好爬蟲，必須把基礎打紮實，之前釋出了兩篇文章，分別是使用XPATH和requests爬取網頁，今天的文章是學習Beautiful Soup並通過一個例子來實現如何使用Beautiful Soup爬取網頁。什麼是Beautiful Soup Beautiful Soup是一款高效的Python網頁解析

爬蟲練習之迴圈爬取網頁中全部連結(requsets同步)

驗證輸入的url是否可正常連線,無法連線提示使用者再次輸入,正常連線則返回url本身 def url_get(): url = input("請輸入要爬取的首頁url:") try

java 爬蟲簡單的圖片爬取

用java爬取圖片需要匯入jsoup的jar包，感覺爬蟲挺有意思的，做出來跟大家分享一下！ import java.io.File; import java.net.URL; import org.apache.commons.io.FileUtils; import

PyQt5與爬蟲（一）——爬取某站動畫每週列表

某站動畫列表PyQt程式截圖，可以點選圖片按鈕，然後會開啟谷歌瀏覽器到你選擇的動漫介面。貼程式碼：main.pyfrom PyQt5.QtWidgets import QWidget,QApplication import sys from MyWidget import W

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

Java爬蟲學習《一、爬取網頁URL》

相關推薦