1. 程式人生 > >Java實現網路爬蟲001-抓取網頁

Java實現網路爬蟲001-抓取網頁

package com.okayisoft.okayspider.demo;

import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.GetMethod;
import org.junit.Test;

import java.io.IOException;

/**
 * 所謂網頁抓取,就是把URL地址中指定的網路資源從網路流中讀取出來
 * 使用commons-HttpClient
 *
 * Created by XJM on 2017/4/27.
 */
public class WebPageSpider {

    @Test
    public void testGetWebPage(){
        //要訪問的地址
        String url="https://www.jd.com";

        //建立一個客戶端 相當於開啟一個瀏覽器
        HttpClient httpClient=new HttpClient();

        //建立一個get方法 類似於在瀏覽器地址中輸入訪問地址
        GetMethod getMethod=new GetMethod(url);
        try {
            //獲得響應狀態碼
            int resultCode=httpClient.executeMethod(getMethod);
            //可以獲取的資訊還有很多
            System.out.println("結果頁面DOM:"+getMethod.getResponseBodyAsString());
        } catch (IOException e) {
            e.printStackTrace();
        }finally {
            //釋放連線
            getMethod.releaseConnection();
        }
    }
}

相關推薦

Java實現網路爬蟲001-網頁

package com.okayisoft.okayspider.demo; import org.apache.commons.httpclient.HttpClient; import org.

java 開發用到網路爬蟲汽車之家網站全部資料經歷

經歷了兩個禮拜的折騰,某某知名網站的資料終於到手了。犯罪沒被發現這種心情感覺很爽。 說一下我的犯罪經歷,之前公司總是抓取某某網站資料,可能是被發現了。某某網站改變了策略。通過各種技術終止了我們的行為,導致我們的抓取功能報錯,逐步跟蹤,發現我們之前是在人家的網站,通過Webh

python實戰之網路爬蟲(爬網頁新聞資訊列表)

關於大資料時代的資料探勘 (1)為什麼要進行資料探勘:有價值的資料並不在本地儲存,而是分佈在廣大的網路世界,我們需要將網路世界中的有價值資料探勘出來供自己使用 (2)非結構化資料:網路中的資料大多是非結構化資料,如網頁中的資料都沒有固定的格式 (3)非結構化資料的挖掘--ETL:即三個步

網路爬蟲頁面超時時候應該怎麼處理?

我們可以設定一個超時時間,在發起請求的這個時間超過這個設定時間後丟擲異常,我們對其進行處理 我在這裡簡單寫一個 demo: from urllib import request from urllib import error import socket try:

Python網路爬蟲訂餐資訊

         本文以大眾點評網為例,獲取頁面的餐館資訊,以達到練習使用python的目的。              1.抓取大眾點評網中關村附近的餐館有哪些 import urllib.request import re def fetchFood(url):

JAVA實現一個爬蟲,爬知乎的上的內容(程式碼已無法使用)

在學習JAVA的過程中寫的一個程式,處理上還是有許多問題,爬簡單的頁面還行,複雜的就要跪. 爬取內容主要使用URLConnection請求獲得頁面內容,使用正則匹配頁面內容獲得所需的資訊存入檔案,使用正則尋找這個頁面中可訪問的URL,使用佇列儲存未訪問的URL

網路爬蟲/資料,反爬蟲(更新版)

知己知彼,百戰不殆 想要反網路爬蟲,首先需要了解網路爬蟲,基本概念不說了,這裡主要對網路爬蟲的特徵進行闡述: 大多數是高訪問量; 大多數是定時(可加入salt隨機時間); IP基本固定/不變(IP代理可跳過); 如何反爬蟲 反爬蟲的思路主要是區別爬蟲

網路爬蟲之爬網頁圖片並儲存

爬取網頁圖片並儲存在本地 將網頁上的圖片爬取之後,以圖片原有名字儲存在本地 程式碼: import requests import os url="http://p1.so.qhmsg.com/bdr/_240_/t01dab8b2e73fe661d6

Python——網路爬蟲(爬網頁圖片)

最近在學習 Python, 然後就試著寫了一個簡單的Python小程式,爬取一個網頁的圖片,不得不說 Python 真的強大,以下是爬取 NEFU Online Judge 網站的程式碼。 吐槽:其實

如何通過jsoup網路爬蟲工具爬網頁資料,並通過jxl工具匯出到excel

 1:閒話少說,直接看需求: 抓取的url:http://www.shparking.cn/index.php/welcome/municipal_parking?key=&per_page=.  參考的資料:http://blog.csdn.net/lmj6235

網路爬蟲-視訊

通過爬蟲抓取視訊 抓取視訊下載連結,傳送Http請求,讀取檔案流儲存到指定位置即可(只能抓取http|https協議的請求,像迅雷這些抓不了) package zack; import java.io.ByteArrayOutputStream;

使用java實現網路爬蟲

之前學習j2ee的搭建,基本完成了。 接下來想學習下爬蟲技術。要研究一項技術,首先得知道它的原理。 那麼網路爬蟲的原理是什麼呢? 網路爬蟲是一個自動提取網頁的程式,它為搜尋引擎從全球資訊網上下載網頁,是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網

Python爬蟲 BeautifulSoup網頁資料 並儲存到資料庫MySQL

最近剛學習Python,做了個簡單的爬蟲,作為一個簡單的demo希望幫助和我一樣的初學者 程式碼使用python2.7做的爬蟲  抓取51job上面的職位名,公司名,薪資,釋出時間等等 直接上程式碼,程式碼中註釋還算比較清楚 ,沒有安裝mysql需要遮蔽掉相關程式碼:#!/u

網路爬蟲--python豆瓣同城北京地區活動資訊

import re import requests import os import sys #url = 'https://beijing.douban.com/events/future-music?start=0' #header = {'User-Agent':'Mozilla/5.0 (Windo

java演算法-網路爬蟲網頁並儲存

從一個URL中讀取網頁,如果是同一個網站的就儲存,URL裡面包含URL列表,繼續抓取,抓完全部 使用多執行緒 A執行緒讀取URL內容 B執行緒存檔案 C執行緒解析URL 發現新URL從A執行緒讀取完的內容可以放到一個佇列裡面,B執行緒來讀取,C執行緒解析URL  問題,如果這個佇列

基於Java網路爬蟲實現網路小說(一)

package novel.spider.impl; import java.util.ArrayList; import java.util.List; import org.apache.http.client.methods.CloseableHttpResponse; import org.apa

java網頁 --- 網路爬蟲

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

python3實現網路爬蟲(1)--urlopen網頁的html

準備開始寫一些python3關於爬蟲相關的東西,主要是一些簡單的網頁爬取,給身邊的同學入門看。 首先我們向網路伺服器傳送GET請求以獲取具體的網頁,再從網頁中讀取HTML內容。        我們大家平時都使用網路瀏覽器,並且它已經成為我們上網不可或缺的軟體。它建立資訊的資

JAVA使用Gecco爬蟲 網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的,但是Gecco是一個挺輕量方便的工具。 先上項目結構圖。 這是一個 JAVASE的 MAVEN 項目,要添加包依賴,其他就四個文件。log4j.propertie

[Python]網路爬蟲(一):網頁的含義和URL基本構成

一、網路爬蟲的定義 網路爬蟲,即Web Spider,是一個很形象的名字。 把網際網路比喻成一個蜘蛛網,那麼Spider就是在網上爬來爬去的蜘蛛。 網路蜘蛛是通過網頁的連結地址來尋找網頁的。 從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它連結地址