1. 程式人生 > >鏈家地產頁面抓取實驗以及二手房資訊統計概覽

鏈家地產頁面抓取實驗以及二手房資訊統計概覽

原本該練習專案是想用來搜尋購物網站某商品的降價搶購資訊的,比如《什麼值得買》。
但是那個網站貌似有防爬蟲機制,因此轉移目標,改搜搜二手房資訊,想想應該會有人有這種需求的,呵呵呵呵呵呵呵呵。。。。。

正好鏈家地產的頁面可以順利抓取,而且該網站的房源資訊查詢條件是直接拼接在URL中的,拼接規則極其簡單。所以就拿這個網站下手了=。=

涉及工具

主要還是用MAVEN構建專案,引入了幾個基礎包:

  1. apache httpclient - 用於處理HTML請求

  2. jsoup - 用於處理HTML頁面文件

  3. mysql-connector-java + c3p0 - 用於連線資料庫

專案主要設計

單例模式URL管理

由於在查詢某一搜索條件的結果頁的時候,往往遇到分頁的情況需要分析當前結果頁是否有分頁,如果有則新增所有分頁的URL,留著後期處理,因此要將URL設計成一個公共的資源。

目前該專案爬蟲為單一執行緒,但是為了後期擴充套件成多執行緒模式,要讓所有爬蟲能訪問URL列表資源,並且能動態新增URL記錄,就應該考慮
到同步的問題。因此,將URL資源設計成單例模式管理。程式碼如下(核心是stack,同步鎖暫未新增):


public class URLPool {

    private static URLPool Instance;
    private Stack<String> stack;

    private
URLPool(){ stack = new Stack<String>(); } public static URLPool getInstance(){ if(Instance == null){ Instance = new URLPool(); } return Instance; } //批量新增URL public void batchPush(List<String> URLS){ for(String URL : URLS){ if
(!stack.contains(URL)){ stack.push(URL); } } } //新增URL public void pushURL(String URL){ if(!stack.contains(URL)){ stack.push(URL); } } //是否有更多URL public boolean hasNext(){ return !(stack.isEmpty()); } //彈出一個URL public String popURL(){ if(hasNext()){ return stack.pop(); } else { return null; } } }

HttpClient 請求

主要使用HttpClient封裝一個GET方法來請求HTML。同時,為後期模擬瀏覽器方便,預留了RequestHeader修飾方法。程式碼如下

GET方法


public static final String CHARSET = "UTF-8";

    public static String httpGet(String pageUrl, HttpHeader header) throws Exception{
        return getAction(pageUrl, header);
    }

    public static String httpGet(String pageUrl) throws Exception{
        return getAction(pageUrl, null);
    }

    private static String getAction(String pageUrl, HttpHeader header) throws Exception{
        @SuppressWarnings("resource")
        HttpClient client  = new DefaultHttpClient();
        HttpGet httpGet = new HttpGet();
        httpGet.setURI(new URI(pageUrl));
        String content = "";
        if(header != null){
            httpGet = header.attachHeader(httpGet);
        }
        BufferedReader in=null;
        try {
            HttpResponse response = client.execute(httpGet);      
            if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {      
                    in = new BufferedReader(new InputStreamReader(response.getEntity().getContent()));
                    StringBuffer sb = new StringBuffer("");
                    String line = "";
                    while((line = in.readLine())!=null){
                        sb.append(line).append("\n");
                    }
                    in.close();
                    content = sb.toString();

            } else {
                throw new Exception("網路解析錯誤:" + response.getStatusLine());
            }
        } catch (Exception e) {
            throw e;
        } finally{
            if(in != null){
                in.close();
            }
        }
        return content;
    }

RequestHeader 修飾


public class HttpHeader {

    private HashMap<String,String> headerMap ;

    public HttpHeader (HashMap<String, String> map){
        this.headerMap = map;
    }

    public HttpHeader(){
        this.headerMap = new HashMap<String, String>();
    }

    public void addParam(String key, String value){
        this.headerMap.put(key, value);
    }

    public Map getHeaderMap(){
        return this.headerMap;
    }


    public HttpGet attachHeader(HttpGet httpGet){
        for(String key : this.headerMap.keySet()){
            httpGet.setHeader(key, this.headerMap.get(key));
        }
        return httpGet;
    }

}

HTML處理(jsoup)

這裡主要是將上邊GET到的HTML字串封裝成jsop document的格式,然後用jsoup的API對文件進行分析,提取所需的資料。程式碼不貼了,API請參考:

抓取結果及簡單統計

原始資料

由程式抓取的記錄儲存在MySQL中。

這裡寫圖片描述

EXCEL簡單透視

通過簡單EXCEL透視圖表可以得到一些直觀的資料,沒有做深入挖掘,嘗試了幾個引數的組合。

查詢條件:朝陽、海淀二手房(房屋售價也有限制,這就不說了)。

房屋修建時間分佈

這裡寫圖片描述

區域在售房屋數量分佈

這裡寫圖片描述

區域平米售價

這裡寫圖片描述

樓型分佈

這裡寫圖片描述

區域在售房屋平均面積

這裡寫圖片描述

…..

啥也不說了,搬磚去了,呵呵呵呵呵呵呵。。。。。。。。。。。。