JAVA爬取網頁內容

阿新 • • 發佈：2019-01-09

之前的文章沒有整理好，這邊重新標註一下，有需要可以到我的個人部落格看完整的三篇文章。

在此之前，大家先了解一個Jsoup，一個html頁面解析的jar包。

如果你上面的Jsoup看完了。

前期準備工作：需要去檢視一下要爬的網頁的結構，對自己要爬的資料的標籤要熟悉。

操作：在頁面上按F12檢視標籤的內容。

就是js+css+html標籤的構造，我們使用比較多的是a、img這兩個標籤。第一個是連結，第二個是圖片所以圖片也是可以爬的~~。裡面的內容也都是一個連結地址。

其餘的標籤就可能是文字資料的內容了。比如說我現在想要爬的就是這個標題中的連結。

和標題的內容。找到這裡看到這個標籤的href值。

使用Jsoup的方法：Elements elements = doc.getElementsByTag("a");//找到所有a標籤

對a標籤進行過濾就行了

也可以直接獲取class標籤下的內容，再在這個class下找到a標籤獲取a標籤的href屬性值。

好了就是這麼簡單。接下來看看程式碼吧。

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class MySearchTest {
	private static String url = "https://blog.csdn.net";
	private static String blogName = "guoxiaolongonly";

	public static void main(String[] args) {
		getArticleListFromUrl(url+"/" + blogName);
	}

 /**
 * 獲取文章列表
 *
 * @param listurl
 */
public static void getArticleListFromUrl(final String listurl) {
    boolean isStop = false;
    Document doc = null;
    try {
        doc = Jsoup.connect(listurl).userAgent("Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36").timeout(3000).post();
    } catch (IOException e) {
        e.printStackTrace();
    }
    Elements elements = doc.getElementsByTag("a");//找到所有a標籤
    for (Element element : elements) {
        final String relHref = element.attr("href"); // == "/"這個是href的屬性值，一般都是連結。這裡放的是文章的連線
        //用if語句過濾掉不是文章連結的內容。因為文章的連結有兩個，但評論的連結只有一個，反正指向相同的頁面就拿評論的連結來用吧
        if (!relHref.startsWith("http://") && relHref.contains("details") && relHref.endsWith("comments")) {
            StringBuffer sb = new StringBuffer();
            sb.append(relHref);
            System.out.println(sb.substring(0, sb.length() - 9));//去掉最後的#comment輸出
            getArticleFromUrl(sb.substring(0, sb.length() - 9));//可以通過這個url獲取文章了
        }
        if (relHref.equals("https://mp.csdn.net//postlist")) {
            isStop = true;
        }
    }


    if (!isStop) {
        new Thread(new Runnable() {
            @Override
            public void run() {
                if (!listurl.contains("list")) {
                    getArticleListFromUrl(listurl + "/article/list/1");//獲取下一頁的列表
                } else {
                    getArticleListFromUrl(listurl.substring(0, listurl.length() - 1) +
                            (Integer.valueOf(listurl.substring(listurl.length() - 1, listurl.length())) + 1));//獲取下一頁的列表
                }


            }
        }).start();
    }
}
	/**
	 * 獲取文章內容
	 * @param detailurl
	 */
	public static void getArticleFromUrl(String detailurl) {
		try {
			Document document = Jsoup.connect(detailurl).userAgent("Mozilla/5.0").timeout(3000).post();
			Element elementTitle = document.getElementsByClass("link_title").first();//標題。 這邊根據class的內容來過濾
			System.out.println(elementTitle.text());
			String filename = elementTitle.text().replaceAll("/", "或");
			Element elementContent = document.getElementsByClass("article_content").first();//內容。
			saveArticle(filename , elementContent.text(), blogName);
			// String Content =elementContent.te  xt().replaceAll(" ", "\t");
			// System.out.println(elementContent.text()+"\n");
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

	}
	
	/**
	 * 儲存文章到本地
	 * @param titile
	 * @param content
	 * @param blogName
	 */
	public static void saveArticle(String titile, String content, String blogName) {
		String lujing = "d:\\MyLoadArticle\\" + blogName + "\\" + titile + ".txt";//儲存到本地的路徑和檔名
		File file = new File(lujing);
		if (!file.getParentFile().exists()) {
			file.getParentFile().mkdirs();
		}
		try {
			file.createNewFile();
		} catch (IOException e) {
			e.printStackTrace();
		}

		try {
			FileWriter fw = new FileWriter(file, true);
			BufferedWriter bw = new BufferedWriter(fw);
			bw.write(content);
			bw.flush();
			bw.close();
			fw.close();
		} catch (IOException e) {
			e.printStackTrace();
		}

	}
}

2018年6月4日 12:04:33 更新

先說一下不能儲存的原因，

1.CSDN現在有做CA認證了。

解決方案：所有地址帶https

2.原本的下一頁屬於靜態生成的頁面現在由js動態載入。

解決方案：

1.用另外一個框架帶模擬點選實現

2.找到js程式碼，載入js來獲取跳轉內容（沒找到js）

3.下下之策，因為文章列表地址為 https://blog.csdn.net/guoxiaolongonly/article/list/pageIndex 我把下一頁寫成預設跳轉，如果當前頁不存在文章內容就不在翻頁。然後因為測試太多次被CSDN強制登入了。

我封裝了獲取文章列表、獲取文章內容儲存文章內容的方法。

大家可以設定blogName去爬你想要的文章了，比如說我：guoxiaolongonly

這邊用post模擬瀏覽器請求。因為直接get，頁面無法載入。還有就是使用cookie，模擬使用者使用者頁面訪問操作。會的小夥伴們也可以交流一下~~ 吐舌頭

針對文字文件編碼亂碼問題。還希望大家自己研究一下。

JAVA爬取網頁內容

之前的文章沒有整理好，這邊重新標註一下，有需要可以到我的個人部落格看完整的三篇文章。在此之前，大家先了解一個Jsoup，一個html頁面解析的jar包。如果你上面的Jsoup看完了。前期準備工作：需要去檢視一下要爬的網頁的結構，對自己要爬的資料的標籤要熟悉。操作：在頁面上按F

PHP爬取網頁內容

1.使用file_get_contents方法實現 $url = "http://www.baidu.com"; $html = file_get_contents($url); //如果出現中文亂碼使用下面程式碼 //$getcontent = iconv("

無搜尋條件根據url獲取網頁資料(java爬取網頁資料)

jsoup jar包 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3<

有搜尋條件根據url抓取網頁資料(java爬取網頁資料)

最近有一個任務抓取如下圖的網頁資料要獲取前一天的資料進行翻頁抓取資料並存入資料庫如果就只是抓取當前頁的資料沒有條件和翻頁資料這個就比較簡單了但是要選取前一天的資料,還有分頁資料一開始的思路就想錯了(開始想的是觸發查詢按鈕和

利用BeautifulSoup爬取網頁內容

利用BeautifulSoup可以很簡單的爬取網頁上的內容。這個套件可以把一個網頁變成DOM Tree 要使用BeautifulSoup需要使用命令列進行安裝，不過也可以直接用python的ide。基礎操作 : ① 使用之前需要先從bs4中匯入包：from

Python之簡單爬取網頁內容

爬去網頁通用流程這樣看著雖然很麻煩，但是爬取網頁都離不開這四個步驟，以後如果爬取更復雜的網頁內容，只需要在這個基礎上新增內容就ok了。 import requests class Qiushi: # 初始化函式 def __init__(self,name):

Python爬蟲：selenium掛shadowsocks代理爬取網頁內容

selenium掛ss代理爬取網頁內容 from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.common.exceptions import

python3定向爬取網頁內容

import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): # 獲取網頁內容 try: r = requests.get(url, timeout=30) r.ra

爬蟲小白——利用pycharm爬取網頁內容

概述：這是一個利用pycharm在phthon環境下做的一個簡單爬蟲分享，主要通過對豆瓣音樂top250的歌名、作者（專輯）的爬取來分析爬蟲原理什麼是爬蟲？我們要學會爬蟲，首先要知道什麼是爬蟲。網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者

PHP加JavaScript爬取網頁內容，超實用簡易教程

php+js爬取網頁內容—–先看下效果如何做到的呢？我們一直以為只有Python才能爬取網頁內容，那是因為Python本身集合很多類庫用來爬取網頁很方便，但是我們使用PHP+js的方法一樣很方便，一樣可以拿到我們想要的網頁內容，而且也不用很繁瑣。

使用HTTPURLConnection模擬登陸，爬取網頁內容

如果你需要爬取某些網頁的內容，但這些網站需要登入，那就需要一些額外的步驟來由程式來完成這些登入並爬取我們需要的網頁內容了，任意登入頁面都是向伺服器傳送請求，如果我們能夠模擬向伺服器傳送請求，那麼自然登入也就不在話下，通過Fiddler抓取我們需要的一些資訊，很輕鬆的就能模擬

如何使用Jsoup爬取網頁內容

前言：這是一篇遲到很久的文章了，人真的是越來越懶，前一陣用jsoup實現了一個功能，個人覺得和selenium的webdriver原理類似，所以今天正好有時間，就又來更新分享了。實現場景：爬取部落格園https://www.cnblogs.com/longronglang，文章列表中標題、連結、釋出時間

java 爬取1網頁內容

package testDeployActivity; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConn

python+selenium+PhantomJS爬取網頁動態加載內容

use for ive comm 自動化測試 mac os x page 影響 blank 一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源，但是設計javascript渲染的頁面卻不能抓取，此時，我們使用web自動化測試化工具Selen

JAVA使用Gecco爬蟲抓取網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。先上項目結構圖。這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.propertie

Python 爬取網頁中JavaScript動態添加的內容（二）

python tab sta exe div int rom ava script 使用 selenium + phantomjs 實現 1、準備環境 selenium（一個用於web應用程測試的工具）安裝：pip install seleniumphantomjs（是

Java爬蟲學習《一、爬取網頁URL》

導包，如果是用的maven，新增依賴： <dependency> <groupId>commons-httpclient</groupId> <artifactId>commons

Python 爬取網頁中JavaScript動態新增的內容（二）

使用 selenium + phantomjs 實現 1、準備環境 selenium（一個用於web應用程測試的工具）安裝：pip install selenium phantomjs（是一種無介面的瀏覽器，用於完成網頁的渲染）下載：http://phantomjs.or

Python 爬取網頁中JavaScript動態新增的內容（一）

當我們進行網頁爬蟲時，我們會利用一定的規則從返回的 HTML 資料中提取出有效的資訊。但是如果網頁中含有 JavaScript 程式碼，我們必須經過渲染處理才能獲得原始資料。此時，如果我們仍採用常規方法從中抓取資料，那麼我們將一無所獲。那麼，通過Web kit可以簡單解決這個

JAVA爬蟲爬取網頁資料資料庫中,並且去除重複資料

pom檔案  <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId&

JAVA爬取網頁內容

相關推薦