1. 程式人生 > >jsoup爬取分頁的內容

jsoup爬取分頁的內容

網站顯示內容基本上都是通過分頁來顯示,我們用jsoup簡單爬取頁面僅能獲取本頁的內容,對於其他頁面的內容該如何爬取?其實很簡單,就是通過檢查下一頁的連結地址,基本上下一頁的超連結地址都是有規律的,基本上都是*****/1或者*****/2等等,所以我們可以按照這個規律,迴圈訪問頁面,抓取資訊即可;當然,通過選擇器直接將下一頁的url獲取出來也可以,不過我覺得直接分析還是比較簡單。


上程式碼:

    public int startSpiderFullHandler(String url) {
        int resultCode = 0;
        Document document = null;
        List<String> titleList = new ArrayList<>();
        for (int i = 0; i < 7; i++) {
            document = getDocument(url + "/page/" + (i + 1));
            //全部標題
            Elements elements2 = document.getElementsByClass("meta-title");
            for (Element element : elements2) {
                logger.info("全部標題" + element.text());
                titleList.add(element.text());
            }
            logger.info("本頁文章:" + elements2.size());
        }
        logger.info("文章總數:" + titleList.size());
        return resultCode;
    }

如果需要其他程式碼,我上傳到我的資源裡,可以直接下載

http://download.csdn.net/download/bbs_baibisen/10156414

相關推薦

jsoup內容

網站顯示內容基本上都是通過分頁來顯示,我們用jsoup簡單爬取頁面僅能獲取本頁的內容,對於其他頁面的內容該如何爬取?其實很簡單,就是通過檢查下一頁的連結地址,基本上下一頁的超連結地址都是有規律的,基本上都是*****/1或者*****/2等等,所以我們可以按照這個規律,迴圈訪

python 爬蟲(五)內容

import urllib.request import ssl import re def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5

利用Jsoup天貓列表資料

由於技術有限天貓詳細頁的銷售資料爬取不到,所以採用折中的方法改為爬列表頁. 本文針對的是店內搜尋頁 以下是獲取網頁資料: /** * @param URL 根據URL獲取document

如何使用Jsoup網頁內容

前言: 這是一篇遲到很久的文章了,人真的是越來越懶,前一陣用jsoup實現了一個功能,個人覺得和selenium的webdriver原理類似,所以今天正好有時間,就又來更新分享了。 實現場景: 爬取部落格園https://www.cnblogs.com/longronglang,文章列表中標題、連結、釋出時間

python實現30百度校園女神圖片!

dpi 分享圖片 ges pat path lis 校園 one sha 1、以下是源代碼import requestsimport osdef getManyPages(keyword,pages): params=[] for i in range(30,3

java爬蟲問題二: 使用jsoup數據class選擇器中空格多選擇怎麽解決

凱哥Java問題描述: 在使用jsoup爬取其他網站數據的時候,發現class是帶空格的多選擇,如果直接使用doc.getElementsByClass(“class的值”),這種方法獲取不到想要的數據。 爬取網站頁面結構如下: 其中文章列表的div為:<div class="am-cf in

爬蟲(GET)——的html

調度 不同 odin 新建 文件內容 存儲 rom 寫入 adp 工具:python3 目標:將編寫的代碼封裝,不同函數完成不同功能,爬取任意頁數的html 新學語法:with open as 除了有更優雅的語法,with還可以很好的處理上下文環境產生的

python3 學習1(搜尋關鍵字word格式的百度文庫並下載成文字)

#coding: utf-8 from bs4 import BeautifulSoup # -*- coding: UTF-8 -*- from selenium import webdriver  import time browser = webdriver.Chrome

php XPath小說站內容

今天覆習php的時候看到dom這個擴充套件,想了想在php裡面貌似最大的用途就只是xpath $content = file_get_contents("https://read.qidian.com/chapter/bLkfqG4_EUSoUTngny7bXQ2/lUKaD4PkCBR

Python糗事百科

這次帶來的是如何爬取糗事百科 且 寫入txt文件 大家都知道,糗事百科可以帶給大家很多快樂。 在這裡,我們將實現對其內容的爬取,將這些好笑的段子記錄下來,可以讓我們打發無聊或沒網時的時間。 當爬取我們想要的內容時,幾乎都離不開這幾個步驟: 1、網站地址; 2、獲取其原始碼; 3、匹配

JsoupCSDN部落格

個人Jsoup練習之作,只做參考: <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <versi

node.js學習筆記(3)——使用cheerio處理的網頁內容

一、簡介 node.js本身自帶爬取網站網頁內容的功能。 var http = require('http'); router.get('/test', function(req, res){ var url = 'http://www.baidu.com';

初涉爬蟲時的requests庫---貼吧內容

requests庫在爬蟲的實踐開發運用中較為常用,實現HTTP請求協議時方法簡單,操作方便,易於實現。對於一般的靜態網頁,都可以方便抓取想要的內容,比起scrapy等框架有明顯的優勢,爬取定向的簡單內容,是極好的。 下面就是運用requests模組,實現一個簡單的爬取貼吧網

Python-小說文字內容(使用beautiful soup實現)

Python-爬取小說文字內容(beautiful soup) 本次爬取的網站為[http://www.136book.com/][6],你可以在頁面選擇你想要爬取的小說。 文中程式碼使用Anaconda的Jupyter書寫。 Beautiful Soup簡介 官

利用requests庫和pyquery庫指定數的京東商品資訊

大概思路:首先利用requests庫獲取京東商品搜尋的頁面資訊,然後利用pyquery庫對爬取的資料進行分析,然後利用格式化輸出的方法輸出所爬取的資料。 要爬取的頁面截圖為 對前幾頁的網址進行分析可觀察出相應的規律  第一頁:https://search.jd.

Jsouptable頁面資料

昨天接到一個任務需要爬取一個網頁的table資料,因為第一次接觸有些打怵。查詢資料尋找解決的方法。 查到不少資料都在用jsoup . 需要下載jsoup-1.8.1.jar 包 jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文字

Python3網路爬蟲:requests動態網頁內容

本文為學習筆記 學習博主:http://blog.csdn.net/c406495762 Python版本:python3.+ 執行環境:OSX IDE:pycharm 一、工具準備 抓包工具:在OSX下,我使用的是Charles4.0 下載連結以及安裝教

資訊——自己CSDN部落格

在學完莫煩B站的爬蟲視訊的3.3節之後,我完成了這個專案,感覺收穫還是不小的。 體會是自己練手感覺進步挺快,能做出一個小專案給了我一些自信心,中間幾個棘手的問題: 1如何獲取下一頁:分析我的主頁的HTML,發現有一個總的文章數、有pagesize(每頁最多顯示幾篇文章),有此兩值就可以得到總

java初試爬蟲jsoup縱橫小說免費模組

java初試爬蟲jsoup爬取縱橫小說免費模組 之前一直學習java ee,上個月到深圳工作,被招去做java爬蟲,於是自己學著jsoup,寫了個簡單的爬蟲 因為平時喜歡看小說就爬了縱橫。 將整個過程分為了 1. 獲取當前頁小說列表的詳細資料 2. 切換到下一分頁的列表 3. 獲取當

Java爬蟲--利用HttpClient和Jsoup部落格資料並存入資料庫

  由於今日頭條等頭條類產品的出現,以今日頭條為代表所使用的爬蟲技術正在逐漸火熱,在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來,同時因為Python良好的資料分析和機器學習的能力,Python的應用越來越廣泛。不過,今天我們要提到