java爬取百度首頁源代碼

阿新 • • 發佈：2017-06-20

clas read 意思出現異常 nts java.net new 有意思 all

爬蟲感覺挺有意思的，寫一個最簡單的抓取百度首頁html代碼的程序。雖然簡單了一點，後期會加深的。

 1 package test;
 2 
 3     import java.io.BufferedReader;
 4     import java.io.InputStreamReader;
 5     import java.net.URL;
 6     import java.net.URLConnection;
 7 
 8     public class Main
 9     {
10         public static void main(String[] args)
 
11         {
12             // 定義即將訪問的鏈接
13             String url = "https://www.baidu.com/";
14             // 定義一個字符串用來存儲網頁內容
15             String result = "";
16             // 定義一個緩沖字符輸入流
17             BufferedReader in = null;
18             try
19             {
20                 // 將string轉成url對象
21                 URL realUrl = new 
 URL(url);
22                 // 初始化一個鏈接到那個url的連接
23                 URLConnection connection = realUrl.openConnection();
24                 // 開始實際的連接
25                 connection.connect();
26                 // 初始化 BufferedReader輸入流來讀取URL的響應
27                 in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
 
28                 // 用來臨時存儲抓取到的每一行的數據
29                 String line;
30                 while ((line = in.readLine()) != null)
31                 {
32                     // 遍歷抓取到的每一行並將其存儲到result裏面
33                     result += line + "\n";
34                 }
35             } catch (Exception e)
36             {
37                 System.out.println("發送GET請求出現異常！" + e);
38                 e.printStackTrace();
39             } // 使用finally來關閉輸入流
40             finally
41             {
42                 try
43                 {
44                     if (in != null)
45                     {
46                         in.close();
47                     }
48                 } catch (Exception e2)
49                 {
50                     e2.printStackTrace();
51                 }
52             }
53             System.out.println(result);
54         }
55     }
56

java爬取百度首頁源代碼

clas read 意思出現異常 nts java.net new 有意思 all 爬蟲感覺挺有意思的，寫一個最簡單的抓取百度首頁html代碼的程序。雖然簡單了一點，後期會加深的。 1 package test; 2 3 import java.io.B

scrapy 試用爬取百度首頁

# -*- coding: utf-8 -*- import scrapy class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['baidu.com'] start_urls = ['ht

幾行代碼抓取百度首頁

python 百度python中源碼位置(以urllib為例): python中自帶的模塊: /usr/lib/python3.5/urllib/request.py(python3) /usr/lib/python2.7/urllib2.py(python2) py

java爬取百度圖片

package com.kendy.spider; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.net.HttpURLConnection; import java

PHP爬蟲-爬取百度貼吧首頁違規主題貼

因為是第一次寫，感覺有點冗餘。不過嘛，本文章主要面向不知道爬蟲為何物的小夥伴。o(∩_∩)o <?php $url='http://tieba.baidu.com/f?ie=utf-8&kw=php&fr=search'; // 地址 $html = file_ge

python爬蟲系列（一）百度首頁爬取

前言經受不住爬蟲技術的吸引，為此決定踏入”爬蟲”這條不歸路。爬蟲介紹其實在我眼裡，爬蟲無非所見即所得，也就是一切皆可爬。至於url技術和python環境在此就不重複。在此使用urllib庫進行初步學習。 python:2.7 初次嘗試

HttpClient 實現爬取百度搜索結果（自動翻頁）

如果你對HttpClient還不是很瞭解，建議先移步我的另一篇部落格HttpClient4.x之請求示例後再來看這篇部落格。我們這裡的專案採用maven搭建。在閱讀前要對jdk和maven有一定的瞭解。另外開發工具這裡我這裡使用的是：Spring Tool Suite（STS）當然你也可以使用其

java使用htmlunit爬取百度搜索資訊

在maven專案裡新增所需的開源包，這裡我使用2.23版本 <dependency> <groupId&

python--輸入檢索詞自動爬取百度搜索頁標題信息

htm 中心 keyword == 一個經濟 () NPU 招聘會背景：在百度每次輸入關鍵詞檢索後，會出現很多的檢索頁，不利於有效閱讀，為更方便收集檢索信息，編寫了一個可以收集每個檢索頁與檢索詞相關的十條檢索信息（百度在每個檢索頁放置十條檢索標題信息）。可以根據需要選

python爬取百度新聞所有的新聞的前1頁標題和URL地址

這是我自己寫的一個爬取百度新聞的一個程式碼，歡迎大家多來討論，謝謝！(自己已經測試可以使用，在文章最後見效果圖) ''' re模板：2.2.1 requests模板：2.18.4 bs4模板：4.

requests+xpath+map爬取百度貼吧

name ads int strip 獲取 app open http col 1 # requests+xpath+map爬取百度貼吧 2 # 目標內容:跟帖用戶名,跟帖內容,跟帖時間 3 # 分解: 4 # requests獲取網頁 5 # xpath提取內

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

類似百度首頁搜索靜態圖

link org nav top vlog arch text art ack 1 <!DOCTYPE html> 2 <html xmlns="http://www.w3.org/1999/xhtml"> 3 <head> 4

python爬取百度搜索圖片

知乎需要 with 異常 mage 不足 request height adr 在之前通過爬取貼吧圖片有了一點經驗，先根據之前經驗再次爬取百度搜索界面圖片廢話不說，先上代碼 #!/usr/bin/env python # -*- coding: utf-8 -*- #

Python爬取百度貼吧數據

utf-8 支持我 family encode code word keyword 上一條時間　　本渣除了工作外，在生活上還是有些愛好，有些東西，一旦染上，就無法自拔，無法上岸，從此走上一條不歸路。花鳥魚蟲便是我堅持了數十年的愛好。　　本渣還是需要上班，才能支持我的

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

python爬取百度搜索結果ur匯總

百度搜索 sta attr amp end rom range 百度篩選寫了兩篇之後，我覺得關於爬蟲，重點還是分析過程分析些什麽呢： 1）首先明確自己要爬取的目標　　比如這次我們需要爬取的是使用百度搜索之後所有出來的url結果 2）分析手動進行的獲取目標的過程，以便

python 爬取百度url

style not 域名 head dex fin compile threads www 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Date : 2017-08-29 18:38:23 4

多線程爬取百度百科

lib item put 腳本 mit sin find client rtl 前言：EVERNOTE裏的一篇筆記，我用了三個博客才學完...真的很菜...百度百科和故事網並沒有太過不一樣，修改下編碼，debug下，就可以爬下來了，不過應該是我爬的東西太初級了，而且我爬到

【學習筆記】python爬取百度真實url

python 今天跑個腳本需要一堆測試的url，，，挨個找復制粘貼肯定不是程序員的風格，so，還是寫個腳本吧。環境：python2.7 編輯器：sublime text 3 一、分析一下首先非常感謝百度大佬的url分類非常整齊，都在一個

java爬取百度首頁源代碼

相關推薦