Jsoup簡單例子——爬取網頁內的郵箱

阿新 • • 發佈：2018-11-10

一、前言

Jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，

可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。

主要功能：

1）從一個URL，檔案或字串中解析HTML

2）使用DOM或CSS選擇器來查詢、取出資料

3）可操作HTML元素、屬性、文字

二、案例

這裡以百度貼吧的一個帖子為例，爬取帖子裡的郵箱，如圖：

首先新建一個Maven Project

在pom.xml中加入jsoup的jar包：

<dependency>
	  <groupId>org.jsoup</groupId>
	  <artifactId>jsoup</artifactId>
	  <version>1.10.2</version>
</dependency>

Java程式碼：


import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * 爬取貼吧郵箱
 * @author Honest
 *
 */
public class JsoupTest3 {
	public static void main(String[] args) {
		int index = 1;//頁數
		String url = "https://tieba.baidu.com/p/3349997454?pn=";//地址
		long startTime = System.currentTimeMillis();//開始時間
		int i = 0;//記錄獲取郵箱個數
		try {
			//獲取10頁的內容
			for(;index <= 10;index++) {
				Document document = Jsoup.connect(url+index)
						//偽裝成瀏覽器進行抓取
						.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0")
						.get(); 
				Element main = document.getElementById("j_p_postlist");
				Elements content = main.select("div.l_post_bright")
						.select("div.d_post_content_main")
						.select("div.p_content")
						.select("cc")
						.select("div.d_post_content");
				//遍歷每一帖的內容
				for (Element element : content) {
					String Content = element.text();
					//正則表示式判斷郵箱
					String patternStr = "[\\w[.-]] 
[email protected][\\w[.-]]+\\.[\\w]+";
					Pattern pattern = Pattern.compile(patternStr);
					Matcher matcher = pattern.matcher(Content);
					//如果含有郵箱，獲取到的郵箱個數i+1，並輸出該郵箱
					if(matcher.find()) {
						i++;
						System.out.println(matcher.group());
					}
				}
			}
			long endTime = System.currentTimeMillis();//結束時間
			System.out.println("獲取了"+i+"個郵箱");
			//System.currentTimeMillis()單位為毫秒，除以1000轉化為秒
			System.out.println("耗時:"+(endTime - startTime)/1000+"s");
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

需要注意的是，在利用爬蟲爬取網頁資料的時候，一定要偽裝成瀏覽器，否則有的網站在識別到你正在通過爬蟲爬取資料後，會封掉你的ip，切記切記。

Jsoup簡單例子——爬取網頁內的郵箱

一、前言 Jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。主要功能： 1）從一個URL，檔案或字串中解析HTM

Jsoup簡單例子2.0——多執行緒爬取網頁內的郵箱

上一篇文章講了利用Jsoup爬取貼吧帖子裡的郵箱，雖然爬取成功了，但我對效率有所追求。10頁的帖子爬取了兩百多個郵箱，最快用時8秒，一般需要9秒。在思考了一下怎麼提升效率後，決定採用多執行緒的方式爬取網頁內的郵箱。廢話不多說，直接上程式碼。引入Jsoup的jar包此處省略，沒有的可以檢視上篇文

簡單的爬取網頁圖片

baidu alt idt ima 修改利用表達輸入 html import reimport urllib.request# ------ 獲取網頁源代碼的方法 ---def getHtml(url): page = urllib.request.urlope

python爬蟲（1）——簡單的爬取網頁的資訊

獲取網上真實的語料資料，本身對Py的掌握不是很好，記錄下自己學習的過程，希望對你有幫助。 #python3 獲得taoeba的語料（不知道從哪翻到的這個網站，有各國語言的句子，訪問速度較慢 # -

python3 爬取網頁表格例子

很簡潔明瞭的爬蟲例子，分享給大家

python簡單爬取網頁文字操作體會

自上次成功嘗試爬取了靜態頁面的圖片之後，本白又跟著另一篇博文做了一下爬取網頁文字的嘗試。基本程式碼都是來源於該篇博文，本人只是做了輕微修改。簡單的實現爬蟲爬取網頁文字和圖片以python3為背景，這裡還是先定義一個讀取html頁面資訊的函式： import urllib.

python 簡單爬取本地文件與爬取網頁使用requests和bs4，及自己問題的解決

爬取本地文件： # -*- coding: cp936 -*- #import requests from bs4 import BeautifulSoup def getZY

Python之簡單爬取網頁內容

爬去網頁通用流程這樣看著雖然很麻煩，但是爬取網頁都離不開這四個步驟，以後如果爬取更復雜的網頁內容，只需要在這個基礎上新增內容就ok了。 import requests class Qiushi: # 初始化函式 def __init__(self,name):

利用htmlunit和jsoup來實現爬取js的動態網頁實踐(執行js)

更新，這就尷尬了，這篇文章部落格閱讀文章最多，但是被踩得也最多。爬取思路：所謂動態，就是通過請求後臺，可以動態的改變相應的html頁面，頁面並不是一開始就全部展現出來的。大部分操作都是通過請求完成的，一次請求，一次返回。而在大多數網頁中請求往往都被開發者隱藏在了js程

一個簡單的網路爬蟲---爬取網頁中的圖片

這裡貼上py原始碼,這個爬蟲很簡單，爬取網頁的圖片，通過正則表示式匹配對應的圖片的url 然後下載之，基本上也沒有什麼容錯處理，僅供學習之用 # -*- coding: utf-8 -*- import urllib2 import urllib im

[Java爬蟲] 使用 Jsoup + HttpClient 爬取網頁圖片

一、前言把一篇圖文並茂的優秀文章全部爬取下來，就少不了 Java 爬蟲裡邊的圖片爬取技術了。很多人都用來爬取美女圖片，但是筆者覺得這有傷大雅。下面筆者使用它來爬取 CSDN 【今日推薦】文章附帶的圖片二、程式碼、依賴筆者對本程式碼經過多次

python3爬蟲爬取網頁圖片簡單示例

本人也是剛剛開始學習python的爬蟲技術，然後本來想在網上找點教程來看看，誰知道一搜索，大部分的都是用python2來寫的，新手嘛，一般都喜歡裝新版本。於是我也就寫一個python3簡單的爬蟲，爬蟲一下貼吧的圖片吧。話不多說，我們開始。首先簡單來說說一下知識。一

如何通過jsoup網路爬蟲工具爬取網頁資料,並通過jxl工具匯出到excel

1：閒話少說,直接看需求: 抓取的url:http://www.shparking.cn/index.php/welcome/municipal_parking?key=&per_page=. 參考的資料:http://blog.csdn.net/lmj6235

htmlparse的簡單使用--------爬取電影網頁的全部下載連結

1前期準備，下載htmlparse壓縮包並配置到eclipse上，到下面網址可以下載 1、這裡先分析與獲取一個電影介紹頁面的內容現在我們來檢視網頁原始碼好、我們現在先來獲取一個頁面的下載連結 /** * 獲取一個頁面的下

使用python爬取網頁傳送到郵箱

py3.6； #coding:utf-8 #強制使用utf-8編碼格式 import smtplib #載入smtplib模組 from email.mime.text import MIMEText from email.utils import formatad

python urllib, urllib2實現登陸和簡單爬取網頁(個人坑點筆記)

不想做重複的事情，對於已經寫得比較詳細的我就不再自己重新寫了，直接引用，希望原作者諒解（反正直接貼的網站，大概沒事吧~）主要是記一些自己碰到的坑實現登陸其實主要是用好那個cookiejar

HtmlUnit、httpclient、jsoup爬取網頁資訊並解析

1.爬取頁面效果圖點選"百度一下"按鈕前頁面點選"百度一下"按鈕後頁面天涯社群登入頁面登入進去之後個人主頁二、具體實現程式碼 HtmlUnit(底層也

簡單的python爬取網頁字串內容並儲存

最近想試試python的爬蟲庫，就找了個只有字串的的網頁來爬取。網址如下：開啟後看到是一些歌名還有hash等資訊。按照hash|filename的方式存在檔案裡，先貼程式碼 #coding=utf-8 import urllib import re import

Jsoup爬取網頁亂碼編碼格式gb2312轉utf8

最近做的一個專案需要爬取股票公告並存儲於mongodb中用來顯示，當我在用jsoup爬取新浪財經股票公告的時候，發現了亂碼問題。網頁連結如下http://vip.stock.finance.sina.

Python爬蟲實戰(三):簡單爬取網頁圖片

先上程式碼:#coding=utf-8 import urllib.request for i in range(1,41): imgurl = "http://mtl.ttsqgs.com/images/img/11552/" imgurl += str(i

Jsoup簡單例子——爬取網頁內的郵箱

一、前言

主要功能：

二、案例

相關推薦