自己動手搭建一個簡單的基於Hadoop的離線分析系統之一——網路爬蟲

阿新 • • 發佈：2018-12-23

自己動手搭建一個簡單的基於Hadoop的離線分析系統之一——網路爬蟲

之前對大資料頗感興趣，在學習了一個月的相關原理和應用後，感覺自己需要動手一個實戰專案來鞏固之前學到的東西，加之很早之前就接觸過一些爬蟲知識，因此利用手上現有的資源（一臺膝上型電腦）來搭建一個關於房屋租賃的簡單的基於Hadoop的離線分析系統，其中包含了爬蟲、HDFS、MapReduce、MySQL以及hive的簡單應用。
由於手上硬體資源著實有限，該系統是實際應用系統的超級簡化版，旨在對大資料的一部分相關知識綜合起來做一個簡單應用，請大神勿噴！

專案整體框架

一、基本環境

為了避免後面出現各種環境問題，這裡首先給出我的基本環境配置資訊：
1. Windows
a. Window10 64位作業系統
b. Python3.7
c. jdk1.7.0_80
d. maven3.6.0
e. VMware Workstation 14 Pro
f. SecureCRT 8.0
2. Linux
a. Centos7 64位
b. Python3.6.5
c. jdk1.7.0_80
d. Hadoop2.6.5
e. hive1.2.1
f. MySQL5.7.24

二、待爬資訊

我選擇的房屋租賃資訊網站是小豬短租

，該網站沒有使用大量的JS渲染以及非同步載入方式等反爬取手段，即使IP被封也可以通過輸入驗證碼來解封，並不影響接下來一段時間的爬取。
待爬資訊有：出租房屋所在省、市、區，起步價格，房屋面積，適宜居住的人數，出租標題資訊，詳細地址，如下圖所示。

三、爬蟲程式碼（For Windows）

'''
@author: Ἥλιος
@CSDN：https://blog.csdn.net/qq_40793975/article/details/82734297
Platform：Windows Python3
'''
print(__doc__)

from bs4 import BeautifulSoup
import 
 requests
import re
import time
import random
import sys
import getopt

url = 'http://sh.xiaozhu.com/'
proxies = {"http": "123.114.202.119:8118"}  # 代理IP
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:64.0) Gecko/20100101 Firefox/64.0'
}   # 訊息頭
MunicList = ['sh', 'tj', 'cq', 'bj']    # 直轄市列表


def get_page_links(url=None, page_links=None, label=0):
    """
    爬取某個網頁上的全部房屋租賃連結
    :param url: 網頁連結
    :param page_links: 全部房屋租賃連結
    :param label: 標誌位，該網頁是第一頁為1，否則為1
    :return: 狀態碼，0爬取成功，1IP被封導致爬取失敗，2爬取成功且當前網頁為最後一頁
    """
    sec = (random.random() + 0) * 10
    time.sleep(sec)  # 請求延時

    wb_data = requests.get(url, headers=header)

    if wb_data.status_code == 202:  # 頁面響應狀態202，IP被封
        print("IP blocked")
        return 1

    soup = BeautifulSoup(wb_data.text, 'lxml')

    links = soup.select('.pic_list > li > a:nth-of-type(1)')

    for link in links:
        page_link = link.get('href')
        page_links.append(page_link)

    info = soup.select('a.font_st')
    if len(info) <= 1 and label == 0:  # 判斷當前頁是不是最後一頁，不檢查第一頁
        print("Last page")
        return 2

    return 0


def detail2adress(str=None):
    """
    使用正則表示式提取詳細地址（非直轄市）中的省或行政區、市或自治區、區或縣
    :param str: 詳細地址
    :return: 省或行政區、市或自治區、區或縣組成的列表
    """
    result_default = [None, None, None]
    if str is None:
        return result_default
    result = re.search('(?P<province>[^省]+省|[^行政區]+行政區)(?P<city>[^市]+市|[^自治區]+自治區)(?P<county>[^縣]+縣|[^區]+區)', str)
    if result is None:
        return result_default
    return list(result.groups())


def detail2adress_Munic(str=None):
    """
    使用正則表示式提取詳細地址（直轄市）中的省或行政區、市或自治區、區或縣
    :param str: 詳細地址
    :return: 省或行政區、市或自治區、區或縣組成的列表
    """
    result_default = [None, None, None]
    if str is None:
        return result_default
    result = re.search('(?P<city>[^市]+市)(?P<county>[^區]+區)', str)
    if result is None:
        return result_default
    result = list(result.groups())
    result_default[0] = result[0]
    result_default[1:3] = result[:]
    return result_default


def get_rental_information(url=None, Munic=0):
    """
    根據連結爬取某個房屋租賃資訊
    :param url: 待爬取房屋租賃資訊的連結
    :param Munic: 標誌位，1是直轄市，否則為0
    :return: 房屋租賃資訊
    """
    sec = (random.random() + 0) * 10
    time.sleep(sec)  # 請求延時

    wb_data = requests.get(url, headers=header)
    if wb_data.status_code == 202:
        print("IP blocked")
        return 1
    soup = BeautifulSoup(wb_data.text, 'lxml')

    address = soup.select('.pho_info > p')[0].get('title')
    price = soup.select('.day_l > span:nth-of-type(1)')[0].text
    size = soup.select('.border_none > p')[0].text
    number = soup.select('.h_ico2')[0].text
    title = soup.select('.pho_info > h4:nth-of-type(1) > em:nth-of-type(1)')[0].text

    pattern_size = re.compile(r'\d+')   # 查詢數字
    pattern_number = re.compile(r'\d+')   # 查詢數字

    size = pattern_size.findall(size.split(' ')[0])[0]
    number = pattern_number.findall(number)[0]

    data = {
        'address': detail2adress_Munic(address) if Munic else detail2adress(address),
        'price': int(price),
        'size': int(size),
        'number': int(number),
        'detail_address': address,
        'title': title
    }

    return data


def get_area_page_links(area=None):
    """
    爬取某所有網頁上的全部房屋租賃連結
    :param area: 這些網頁所屬的地區
    :return: 全部房屋租賃連結
    """
    sec = (random.random() + 1) * 10
    time.sleep(sec)

    page_links = []
    for i in range(100):
        label = 0
        if i + 1 == 1:
            label = 1
            url = 'http://{}.xiaozhu.com/'.format(area)
        else:
            url = 'http://{}.xiaozhu.com/search-duanzufang-p{}-0/'.format(area, i + 1)
        res = get_page_links(url, page_links, label)
        print("Area: " + area + " ,Page: " + str(i+1))
        print(len(page_links))
        if res != 0:
            break
    return page_links


def get_area_rental_information(area=None):
    """
    根據該地區的全部房屋租賃連結爬取房屋租賃資訊
    :param area: 這些房屋租賃連結所屬的地區
    :return: 狀態碼，0爬取成功， 1IP被封導致爬取失敗
    """
    Munic = 0
    if area in MunicList:
        Munic = 1
    area_page_links = get_area_page_links(area)
    filename = 'F:\\{}_rental_information.txt'.format(area)  # 租賃資訊儲存路徑
    try:
        fw = open(filename, 'w', encoding='utf-8')
    except IOError:
        print("Fail in open file" + filename)
    else:
        link_num = 0
        for page_link in area_page_links:
            link_num += 1
            rental_data = get_rental_information(page_link, Munic)
            if rental_data == 1:
                fw.flush()
                fw.close()
                return 1
            line = rental_data['address'][0] + '\t' + rental_data['address'][1] \
                   + '\t' + rental_data['address'][2] + '\t' + str(rental_data['price'])\
                   + '\t' + str(rental_data['size']) + '\t' + str(rental_data['number']) + '\t' \
                   + rental_data['detail_address'] + '\t' + rental_data['title'] + '\n'
            print("Line " + str(link_num) + ": " + line)
            try:
                fw.writelines(line)
            except UnicodeEncodeError:
                pass
            fw.flush()
        fw.close()
    return 0


opts, args = getopt.getopt(sys.argv[1:], "ha:")
area = None
for op, value in opts:
    if op == "-h":
        print("Usage: python 爬蟲.py -a area")
        print("Optimal areas are in file: areas.txt Or You can search them on www.xiaozhu.com")
    elif op == "-a":
        area = value
        get_area_rental_information(area=area)
    else:
        print("ParameterError Usage: python 爬蟲.py -a area")

四、程式碼詳情（For Windows）

該程式碼只對兩種響應狀態碼進行處理，200代表網頁資訊被正常載入，202則表示IP被封，然後使用beautifulsoup對網頁進行解析，提取我們所需要的資訊。程式先對所給定區域的全部房屋租賃連結進行逐頁面的爬取，在爬取到所有連結後，根據每條資訊爬取對應的房屋租賃資訊，每爬到一條資訊就整合到到一個字典中，最後反序列化到一個自定的輸出檔案（filename）中，預設儲存路徑是F盤。
在命令列中直接輸入“python .\爬蟲_windows.py -a 區域”就開始爬取該地區的全部租賃資訊，

輸入“python .\爬蟲_windows.py -h”檢視幫助資訊，

該程式碼採用的反爬蟲應對方法是當前執行緒隨機等待一段時間（sys.sleep()）再繼續傳送下一個請求，以此來模仿人的瀏覽方式，另外，該網站還會檢查請求頭中User-Agent的內容，requests中get方法預設的User-Agent是Python訪問，因此這裡對headers進行了替換，更多的反爬蟲應對措施見下文。

五、爬蟲程式碼（For Linux）

'''
@author: Ἥλιος
@CSDN：https://blog.csdn.net/qq_40793975/article/details/82734297
Platform：Windows Python3
'''
print(__doc__)

from bs4 import BeautifulSoup
import requests
import re
import time
import random
import sys
import getopt

url = 'http://sh.xiaozhu.com/'
proxies = {"http": "123.114.202.119:8118"}  # 代理IP
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:64.0) Gecko/20100101 Firefox/64.0'
}   # 訊息頭
MunicList = ['sh', 'tj', 'cq', 'bj']    # 直轄市列表


def get_page_links(url=None, page_links=None, label=0):
    """
    爬取某個網頁上的全部房屋租賃連結
    :param url: 網頁連結
    :param page_links: 全部房屋租賃連結
    :param label: 標誌位，該網頁是第一頁為1，否則為1
    :return: 狀態碼，0爬取成功，1IP被封導致爬取失敗，2爬取成功且當前網頁為最後一頁
    """
    sec = (random.random() + 0) * 10
    time.sleep(sec)  # 請求延時

    wb_data = requests.get(url, headers=header)

    if wb_data.status_code == 202:  # 頁面響應狀態202，IP被封
        print("IP blocked")
        return 1

    soup = BeautifulSoup(wb_data.text, 'lxml')

    links = soup.select('.pic_list > li > a:nth-of-type(1)')

    for link in links:
        page_link = link.get('href')
        page_links.append(page_link)

    info = soup.select('a.font_st')
    if len(info) <= 1 and label == 0:  # 判斷當前頁是不是最後一頁，不檢查第一頁
        print("Last page")
        return 2

    return 0


def detail2adress(str=None):
    """
    使用正則表示式提取詳細地址（非直轄市）中的省或行政區、市或自治區、區或縣
    :param str: 詳細地址
    :return: 省或行政區、市或自治區、區或縣組成的列表
    """
    result_default = [None, None, None]
    if str is None:
        return result_default
    result = re.search('(?P<province>[^省]+省|[^行政區]+行政區)(?P<city>[^市]+市|[^自治區]+自治區)(?P<county>[^縣]+縣|[^區]+區)', str)
    if result is None:
        return result_default
    return list(result.groups())


def detail2adress_Munic(str=None):
    """
    使用正則表示式提取詳細地址（直轄市）中的省或行政區、市或自治區、區或縣
    :param str: 詳細地址
    :return: 省或行政區、市或自治區、區或縣組成的列表
    """
    result_default = [None, None, None]
    if str is None:
        return result_default
    result = re.search('(?P<city>[^市]+市)(?P<county>[^區]+區|[^縣]+縣)', str)
    if result is None:
        return result_default
    result = list(result.groups())
    result_default[0] = result[0]
    result_default[1:3] = result[:]
    return result_default


def get_rental_information(url=None, Munic=0):
    """
    根據連結爬取某個房屋租賃資訊
    :param url: 待爬取房屋租賃資訊的連結
    :param Munic: 標誌位，1是直轄市，否則為0
    :return: 房屋租賃資訊
    """
    sec = (random.random() + 0) * 10
    time.sleep(sec)  # 請求延時

    wb_data = requests.get(url, headers=header)
    print(wb_data.status_code)
    if wb_data.status_code == 202:
        print("IP blocked")
        return 1
    soup = BeautifulSoup(wb_data.text, 'lxml')

    address = soup.select('.pho_info > p')[0].get('title')
    price = soup.select('.day_l > span:nth-of-type(1)')[0].text
    size = soup.select('.border_none > p')[0].text
    number = soup.select('.h_ico2')[0].text
    title = soup.select('.pho_info > h4:nth-of-type(1) > em:nth-of-type(1)')[0].text

    pattern_size = re.compile(r'\d+')   # 查詢數字
    pattern_number = re.compile(r'\d+')   # 查詢數字

    size = pattern_size.findall(size.split(' ')[0])[0]
    number = pattern_number.findall(number)[0]

    data = {
        'address': detail2adress_Munic(address) if Munic else detail2adress(address),
        'price': int(price),
        'size': int(size),
        'number': int(number),
        'detail_address': address,
        'title': title
    }

    return data


def get_area_page_links(area=None):
    """
    爬取某所有網頁上的全部房屋租賃連結
    :param area: 這些網頁所屬的地區
    :return: 全部房屋租賃連結
    """
    sec = (random.random() + 1) * 10
    time.sleep(sec)

    page_links = []
    for i in range(100):
        label = 0
        if i + 1 == 1:
            label = 1
            url = 'http://{}.xiaozhu.com/'.format(area)
        else:
            url = 'http://{}.xiaozhu.com/search-duanzufang-p{}-0/'.format(area, i + 1)
        res = get_page_links(url, page_links, label)
        print("Area: " + area + " ,Page: " + str(i+1))
        print(len(page_links))
        if res != 0:
            break
    return page_links


def get_area_rental_information(area=None, path=None):
    """
    根據該地區的全部房屋租賃連結爬取房屋租賃資訊
    :param area: 這些房屋租賃連結所屬的地區
    :return: 狀態碼，0爬取成功， 1IP被封導致爬取失敗
    """
    Munic = 0
    if area in MunicList:
        Munic = 1
    area_page_links = get_area_page_links(area)
    filename = path + area + '_rental_information.txt'  # 租賃資訊儲存路徑
    try:
        fw = open(filename, 'w', encoding='utf-8')
    except IOError:
        print("Fail in open file" + filename)
    else:
        link_num = 0
        for page_link in area_page_links:
            link_num += 1
            rental_data = get_rental_information(page_link, Munic)
            failed_time = 1
            while rental_data == 1 and failed_time <= 3:  # 失敗重試
                sys.wait(10000)
                print("Retry " + failed_time + " time!")
                rental_data = get_rental_information(page_link, Munic)
                failed_time += 1
            if rental_data == 1:
                print("Retry Failed!")
                raise Exception("Crawling Failed!Next Area")
                return 1
            try:
                line = rental_data['address'][0] + '\t' + rental_data['add

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    自己動手搭建一個簡單的基於Hadoop的離線分析系統之一——網路爬蟲
       
 
  
  
 自己動手搭建一個簡單的基於Hadoop的離線分析系統之一——網路爬蟲 
  
  之前對大資料頗感興趣，在學習了一個月的相關原理和應用後，感覺自己需要動手一個實戰專案來鞏固之前學到的東西，加之很早之前就接觸過一些爬蟲知識，因此利用手上現有的資源（一臺膝上型電腦）來搭建一個關於房屋租賃的簡 

  
 

    

    
    自己動手實現一個簡單的JSON解析器
      pair   bool   優點   輕量   結束   pan   isdigit   復雜   false   1. 背景
JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式。相對於另一種數據交換格式 XML，JSON 有著諸多優點。比如易讀性更好，占用空間更少等 

  
 

    

    
    自己動手實現一個簡單的Mybatis（初級版本1.0）
       
 
 手寫Mybatis-v1.0 
 原始碼連結（包括v1.0與v2.0）: https://github.com/staticLin/customMyBatis.git 
 從上一個文章 ---Mybatis概述中瞭解到了Mybatis的主要架構與底層原理流程，結尾給出了一個巨集觀流程圖，可 

  
 

    

    
    自己動手寫一個簡單的MVC框架（第一版）
      一、MVC概念回顧

　　路由（Route）、控制器（Controller）、行為（Action）、模型（Model）、檢視（View）

用一句簡單地話來描述以上關鍵點：
　　路由（Route）就相當於一個公司的前臺小姐，她負責帶你（請求）找到跟你面試的面試官（控制器Controller），面試官 

  
 

    

    
    自己動手寫一個簡單的MVC框架（第二版）
      一、ASP.NET MVC核心機制回顧
　　在ASP.NET MVC中，最核心的當屬“路由系統”，而路由系統的核心則源於一個強大的System.Web.Routing.dll元件。

　　在這個System.Web.Routing.dll中，有一個最重要的類叫做UrlRoutingModule，它是一個 

  
 

    

    
    自己動手實現一個簡單c編譯器
      
                
這學期的編譯課程設計需要做一個類c編譯器，準確的說是完善上學期做的大實驗。
上學期的實驗中，使用antlr完成的編譯器識別的語法很有限，基本上是個計算器的語法，於是這次決定弄語法一個更加完整。
語法支援：
宣告，賦值，函式,if-else,while,for。
首先是詞法分 

  
 

    

    
    自己動手實現一個簡單的 IOC容器
      控制反轉,即Inversion of Control（IoC），是面向物件中的一種設計原則，可以用有效降低架構程式碼的耦合度，從物件呼叫者角度又叫做依賴注入，即Dependency Injection（DI），通過控制反轉，物件在被建立的時候，由一個調控系統內所有物件的容器，將其所依賴的物件的引用傳遞給它，也 

  
 

    

    
    搭建一個簡單的日誌實時分析平臺---ELK
      
                一、前言    人們常常說資料如金，可是，能被利用起的資料，才是“金”。而網際網路的資料，常常以日誌的媒介的形式存在，並需要從中提取其中的"資料"。    從這些資料中，我們可以做使用者畫像（每個使用者都點了什麼廣告，對哪些開源技術感興趣），安全審計，安全防護（如果1小時內登 

  
 

    

    
    利用red5搭建一個簡單的流媒體直播系統
      
								            
						
                一、red5安裝、設定。

這個過程就不多說了，參見http://blog.csdn.net/liwf616/article/details/8810405一文,

   安裝完成並啟動red5後。

二、安 

  
 

    

    
    在學校自己寫的一個簡單的基於SSM的家校通系統
       
 
              在學校自己寫的一個簡單的基於SSM的家校通系統 
   本人目前是在校大學生前幾個月自己自學了ssm開發框架並自己開發了一個簡單的家校通系統。 
   這個系統主要分為是四個主要模組分 

  
 

    

    
    java小白自己動手開發一個網站之搭建一個網站需要啥（第2回）
       
 
 
 新手小白，大神們看到什麼問題，請多多指出 
 目錄 
 新手小白，大神們看到什麼問題，請多多指出 
 搭建網站的流程 
 註冊域名 
 購買空間 
 製作網站 
 
 搭建網站的流程 
 搭建網站有哪些流程 
 1＼註冊域名  2＼購買空間  3＼製作網站  
 & 

  
 

    

    
    在Linux中搭建一個簡單的dns伺服器     --------基於centos 6.5，以我做的一個實驗為例子。
      
							
							
							Experimental environment：
dns server : 192.168.200.254
http server :192.168.200.202
client :192.168.200.203
Experimental steps：
fir 

  
 

    

    
    基於sklearn庫，搭建一個簡單的問答系統
       
  
  
 第一部分： 在這部分裡，首先需要去讀取給定的檔案，並把檔案裡的內容讀取到list裡面。這部分的任務主要需要檔案IO操作方面的基本知識。 
 # 讀取檔案
def read_corpus(file):
    with open(file) as f:
        list = []
   

  
 

    

    
    從零開始搭建一個簡單的基於webpack的vue開發環境
       
  
  
 都8102年了，現在還來談webpack的配置，額，是有點晚了。而且，基於vue-cli或者create-react-app生成的專案，也已經一鍵為我們配置好了webpack，看起來似乎並不需要我們深入瞭解。 
 不過，為了學習和理解webpack解決了前端的哪些痛點，還是有必要從零開始自己 

  
 

    

    
    5個步驟給自己搭建一個簡單的GIT伺服器
      
                
前段時間購買了一個雲伺服器，想在上面自己東西。對於程式猿來講，程式碼的修改記錄是個非常重要的事情，自己搞個git庫就理所當然，在網上搜了搜記錄，參考了一下，基於我個人使用的原因，沒有加入許可權管理那些特性極其對應的控制元件。
1、安裝git
sudo apt-get ins 

  
 

    

    
    教程:動手用自己電腦搭建一個網站
      
                

Tomcat的安裝以及第一個HelloWorld網站


登入 http://tomcat.apache.org 下載，建議Tomcat 7.0.X或更新版本，我用的是7.0.56，windows平臺下載ZIP，Linux下載TAR，不建議下載安裝檔案。

下載後解壓到任 

  
 

    

    
    自己動手寫一個自動登錄腳本gg
      簡單   只需要   自己   不同   enum   -s   class   rep   使用   1.下載一個sshpass工具
2.安裝sshpass，安裝到tools文件夾
3.把tools文件夾的路徑加入到/etc/bashrc
        vim   /etc/bashrc
         

  
 

    

    
    自己打造了一個簡單的站長工具
      spl   logs   images   fan   net   ref   分享   style   image   自己打造了一個簡單的站長工具
 　　站長工具：www.fanguzai.net/

 

 
 
 自己打造了一個簡單的站長工具 

  
 

    

    
    自己動手編寫一個網絡圖片爬蟲
      網絡   浪費   原理   get   應用   crawl   方法   網絡圖   理解   如今基本上我們的大部分時間都是浪費在瀏覽網頁上的，網頁有許多的媒體資源，其中最常見的是圖片。當我們瀏覽到比較好的網站的時候，看到比較好看的圖片總是會忍不住要下載。通常來說我們都是右鍵單擊圖標選擇圖片另存為，選擇 

  
 

    

    
    [js高手之路]html5 canvas動畫教程 - 自己動手做一個類似windows的畫圖軟件
      箭頭   erb   寬度   pow(x   type   row   center   shape   htm   這個繪圖工具，我還沒有做完，不過已經實現了總架構，以及常見的簡易圖形繪制功能：
1，可以繪制直線，圓，矩形，正多邊形【已完成】
2，填充顏色和描邊顏色的選擇【已完成】
3，描邊和填充功