爬蟲系列之鏈家的信息爬取及數據分析

阿新 • • 發佈：2018-09-09

enc lib art andro 函數 strip 一次 read 訪問

關於鏈家的數據爬取和分析

已經實現

 1.房屋數據爬取並下載
 2.房屋按區域分析
 3.房屋按經紀人分析
 4.前十經紀人
 5.經紀人最有可能的位置分析
 6.實現以地區劃分房屋
 目前存在的問題:
 1.多線程下載的時候會出現個別文件不繼續寫入了（已經解決）
 2.未考慮經紀人重名問題
 3.查詢中發現不是每次都能 get 到 url 的數據，具體原因可能跟header有關，或者網站反扒（已經解決，手機端的header有時候訪問pc端會出現None的情況）
 4.守護線程那裏應該出問題了，如果有文件儲存完成，其他就不運行了（已經解決，多線程下還要有主程序運行，否則會出現問題）
 5.json.dumps(dict)方法取出的字符串類型，二進制的，decode不好用，怎麽解決
  （已經解決json.dumps(content, ensure_ascii=False)保持原有的編碼）

  1 # -*- coding: utf-8 -*-
  2 # @Time :2018/5/1   23:39
  3 # @Author : ELEVEN
  4 # @File : _鏈家_數據分析_修改.py
  5 # @Software: PyCharm
  6 
  7 import time
  8 from lxml import etree
  9 from urllib import request
 10 import threading
 11 import os
 12 import json
 13 import random
 14 
 15 ‘‘‘
 16 已經實現
 
 17 1.房屋數據爬取並下載
 18 2.房屋按區域分析
 19 3.房屋按經紀人分析
 20 4.前十經紀人
 21 5.經紀人最有可能的位置分析
 22 6.實現以地區劃分房屋
 23 目前存在的問題:
 24 1.多線程下載的時候會出現個別文件不繼續寫入了（已經解決）
 25 2.未考慮經紀人重名問題
 26 3.查詢中發現不是每次都能 get 到 url 的數據，具體原因可能跟header有關，或者網站反扒（已經解決，手機端的header有時候訪問pc端會出現None的情況）
 27 4.守護線程那裏應該出問題了，如果有文件儲存完成，其他就不運行了（已經解決，多線程下還要有主程序運行，否則會出現問題）
 
 28 5.json.dumps(dict)方法取出的字符串類型，二進制的，decode不好用，怎麽解決
 29 （已經解決json.dumps(content, ensure_ascii=False)保持原有的編碼）
 30 
 31 
 32 ‘‘‘
 33 # 獲取能夠 xpath 匹配的 HTML 匹配對象
 34 def get_html(url):
 35     time.sleep(1)
 36     header = {
 37         ‘Referer‘:‘https://bj.lianjia.com/zufang/‘,
 38         ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0‘
 39     }
 40     req = request.Request(url, headers = header)
 41     # 請求
 42     response = request.urlopen(req)
 43     result = response.read().decode()
 44     # 構建 HTML 匹配對象
 45     html = etree.HTML(result)
 46     return html
 47 # 主程序
 48 def main(p, url):
 49     # 加鎖，寫入本條數據後指針才會進行跳轉
 50     lock = threading.Lock()
 51     # 獲取 get_html() 函數返回的 HTML 匹配對象
 52     html = get_html(url)
 53     # 進行 xpath 初步匹配
 54     house_list = html.xpath(‘//ul[@id="house-lst"]/li/div[@class = "info-panel"]‘)
 55     threading_list = []
 56     # 遍歷得到的匹配列表
 57     for index, house in enumerate(house_list):
 58         content, house_address, house_dict ,broker_name = get_info(p,index, house)
 59         print(‘正在保存第 %d 頁 第 %s 條數據......‘ % (p, index+1))
 60         lock.acquire()
 61         # save_info(p, str(index+1) + ‘ ‘ + content + ‘\n‘)
 62         get_class_data(house_address, house_dict, broker_name)
 63         t2 = threading.Thread(target=save_info, args=(p, str(index+1) + ‘ ‘ + content + ‘\n‘))
 64         t3 = threading.Thread(target=get_class_data, args=(house_address, house_dict, broker_name))
 65         t2.setDaemon(True)  # 這個好像沒有用，等老師幫助解答
 66         t2.start()
 67         t3.start()
 68         threading_list.append(t2)
 69         threading_list.append(t3)
 70         lock.release()
 71     for t in threading_list:
 72         t.join()
 73     # 這裏必須的寫， 這個錯誤得記住，必須要有主進程 ，所有線程才會都運行
 74     print(‘我是守護線程‘)
 75 # 獲取分類數據，方便數據分析
 76 def get_class_data(house_address, house_dict, broker_name):
 77     # 按區域劃分
 78     if house_address in address_class:
 79         address_class[house_address][‘num‘] += 1
 80         address_class[house_address][‘house‘].append(house_dict)
 81     else:
 82         address_class[house_address] =  {‘num‘: 0, ‘house‘: []}
 83         address_class[house_address][‘num‘] += 1
 84         address_class[house_address][‘house‘].append(house_dict)
 85     # 按經紀人劃分
 86     if broker_name in broker_class:
 87         broker_class[broker_name][‘num‘] += 1
 88         broker_class[broker_name][‘house‘].append(house_dict)
 89     else:
 90         broker_class[broker_name] =  {‘num‘: 0, ‘house‘: []}
 91         broker_class[broker_name][‘num‘] += 1
 92         broker_class[broker_name][‘house‘].append(house_dict)
 93 # 獲取房產信息
 94 def get_info(p,index, house):
 95     house_url = house.xpath(‘h2/a/@href‘)[0]
 96     house_html = get_html(house_url)
 97     broker_name = house_html.xpath(
 98         ‘//div[@class="brokerInfo"]/div[@class="brokerInfoText"]/div[@class="brokerName"]/a/text()‘)
 99     broker_phone = house_html.xpath(‘//div[@class="phone"]/text()‘)
100     if broker_name != []:
101         broker_name = broker_name[0]
102         broker_phone = str(broker_phone[0].strip()) + ‘轉‘ + str(broker_phone[1].strip())
103     else:
104         broker_name = ‘暫無相關經紀人！‘
105         broker_phone = ‘請直接聯系客服  10109666‘
106     house_name = house.xpath(‘h2/a/text()‘)[0]
107     house_style = house.xpath(‘div[@class="col-1"]/div[@class="where"]/span[@class="zone"]/span/text()‘)[0]
108     house_size = house.xpath(‘div[@class="col-1"]/div[@class="where"]/span[@class="meters"]/text()‘)[0].strip()
109     house_address = house.xpath(‘div[@class="col-1"]/div[@class="other"]/div[@class="con"]/a/text()‘)[0]
110     house_price = house.xpath(‘div[@class="col-3"]/div[@class="price"]/span/text()‘)[0]
111     house_dict = {
112         ‘house_name‘: house_name,
113         ‘style‘: house_style.strip(),
114         ‘size‘: house_size,
115         ‘address‘: house_address,
116         ‘price‘: house_price,
117         ‘broker_name‘: broker_name,
118         ‘broker_phone‘: broker_phone
119     }
120     content = "名字：%(house_name)s 樣式：%(style)s  大小：%(size)s  地址：%(address)s  " 121               "價格：%(price)s 經紀人：%(broker_name)s 聯系電話：%(broker_phone)s " % house_dict
122     # 構建字典類型 {‘house_name’:{‘num‘:13, ‘house‘:[house_dict]}}
123     print(p, index+1, content)
124     return content,house_address,house_dict,broker_name
125 # 保存文件
126 def save_info(p, content):
127     with open(‘%s/%s.txt‘ % (‘鏈家房產信息‘, str(p)), ‘a‘, encoding=‘utf-8‘) as f:
128         f.write(content)
129 # 隨機消息頭, 這裏修改後再用，應該是出問題了
130 # def random_agent():
131 #     header_str = ‘‘‘Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50#Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50#Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)#Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1#Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1#Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11#Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)#Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)#Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)#Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)#Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5#Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5#MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
132 #     ‘‘‘
133 #     header = header_str.split(‘#‘)
134 #     return header[random.randint(1, len(header)) - 1]
135 # 數據分析
136 def analyze_data():
137     # 查詢信息內房屋總套數
138     address_sum = 0
139     # 區域
140     for key, value in address_class.items():
141         print(key, ‘一共‘, value[‘num‘], ‘套‘)
142         save_info(‘房屋分類‘, key+ ‘一共‘+ json.dumps(value[‘num‘])+ ‘套‘+‘\n‘)
143         # with open(‘%s/%s.txt‘ % (‘鏈家房產信息‘, ‘房屋分類‘), ‘a‘, encoding=‘utf-8‘) as f:
144         #     f.write(key+ ‘一共‘+ value[‘num‘]+ ‘套‘)
145         # 每遍歷到一個區域 房屋總數量變量address_sum 就將這個區域的房屋數量加上
146         address_sum += int(value[‘num‘])
147         # 遍歷每個區域房屋信息
148         for item in value[‘house‘]:
149             print(item)
150             save_info(‘房屋分類‘, json.dumps(item)+‘\n‘)
151             # with open(‘%s/%s.txt‘ % (‘鏈家房產信息‘, ‘房屋分類‘), ‘a‘, encoding=‘utf-8‘) as f:
152             #     f.write(item)
153         print(‘----------------------------------‘)
154     print(‘當前查詢房屋一共‘, address_sum, ‘套‘)
155     save_info(‘房屋分類‘, ‘當前查詢房屋一共‘+ str(address_sum)+ ‘套‘)
156     # 創建字典：鍵為 經紀人 值為 經紀人所擁有房屋數量 num
157     broker_dict = {}
158     for key, value in broker_class.items():
159         # 打印 經紀人 和 其所擁有的房屋數量
160         print(key, ‘一共‘, value[‘num‘], ‘套‘)
161         save_info(‘經紀人分類‘, key+ ‘一共‘+ json.dumps(value[‘num‘])+ ‘套‘+‘\n‘)
162         # 將經紀人 和 房屋數量信息添加到 字典中
163         broker_dict[key] = value[‘num‘]
164         # 分別打印該 經紀人 下面每套房屋的信息
165         for item in value[‘house‘]:
166             print(item)
167             save_info(‘經紀人分類‘, json.dumps(item) + ‘\n‘)
168         print(‘----------------------------------‘)
169     # 如果存在 ‘暫無相關經紀人！‘這種情況，那麽統計的聯系人數量需要減一
170     if ‘暫無相關經紀人！‘ in list(broker_class.keys()):
171         # broker_sum 為經紀人 數量總數
172         broker_sum = int(len(broker_class)) - 1
173         print(broker_sum)
174         # broker_house 為 經紀人 擁有房屋總套數
175         broker_house = address_sum - int(broker_class[‘暫無相關經紀人！‘][‘num‘])
176         del broker_dict[‘暫無相關經紀人！‘]
177     else:
178         broker_sum = len(broker_class)
179         broker_house = address_sum
180     print(broker_dict)
181     # 整理出不含有 ‘暫無相關經紀人！‘ 的字典，方便下面進行數據分析
182     # if broker_dict[‘暫無相關經紀人！‘]:
183     #     del broker_dict[‘暫無相關經紀人！‘]
184 
185     print(‘當前查詢經紀人共有‘, broker_sum, ‘人‘)
186     print(‘當前查詢有經紀人的房屋‘, broker_house, ‘套‘)
187     # 存儲前十名的列表
188     max_list = []
189     print(‘排序得到前十的經紀人‘)
190     for i in range(10):
191         # 取出手裏擁有房子最多的經紀人
192         max_num = max(zip(broker_dict.values(), broker_dict.keys()))
193         # 將房子最多的聯系人添加到前十的列表中
194         max_list.append(max_num)
195         # 打印，第幾名，是誰
196         print(‘第 %d 名‘ % (i + 1), max_num)
197         save_info(‘排名‘, ‘第 %d 名‘ % (i + 1)+‘姓名： ‘+ max_num[1]+‘   ‘+str(max_num[0])+‘套‘+‘\n‘)
198         # 已經被取出的經紀人，從列表中刪除掉，以免影響下一次篩選
199         del broker_dict[max_num[1]]
200         # 創建存儲經紀人位置的字典，
201         broker_postion = {}
202         # 對經紀人手中的房子按照區域劃分，並且存入字典中，統計各區域擁有房屋數量
203         # 房屋最多的區域就是 經紀人最有可能在的位置
204         for dict in broker_class[max_num[1]][‘house‘]:
205             # 如果此區域存在字典中，那麽相應的區域數量 num + 1
206             # 如果不存在，那麽將這個區域添加到字典中，數量 num + 1
207             if dict[‘address‘] in broker_postion:
208                 broker_postion[dict[‘address‘]][‘num‘] += 1
209             else:
210                 broker_postion[dict[‘address‘]] = {‘num‘: 0}
211                 broker_postion[dict[‘address‘]][‘num‘] += 1
212         # 取出經紀人按找區域分類的字典中 ，數量num最大的那個區域元組
213         postion = max(zip(broker_postion.values(), broker_postion.keys()))
214         print(‘最可能在的位置‘, postion[1])
215         save_info(‘排名‘, ‘最可能在的位置‘+ postion[1]+‘\n‘)
216         # 此經紀人數據分析已經結束，字典清空釋放掉，方便下次其他經紀人使用
217         broker_postion.clear()
218     # print(‘排序得到前十的經紀人‘)
219     # print(max_list)
220 
221 
222 if __name__ == "__main__":
223     # 以地址劃分， 創建以 address 為鍵字典
224     address_class = {}
225     # 以經紀人劃分， 創建以 broker 為鍵字典
226     broker_class = {}
227     # 加鎖
228     lock = threading.Lock()
229     # 運行初始提示
230     print(‘   -------------可供選擇的區域--------------\n東城 西城 朝陽 海澱 豐臺 石景山 通州 昌平 大興 順義\n亦莊開發區 房山 門頭溝 平谷 懷柔 密雲 延慶 燕郊 香河‘)
231     option = input(‘請輸入相應區域的拼音，默認視為選擇全部：‘)
232     page = int(input(‘請輸入要獲取的頁數：‘))
233     # 創建文件夾
234     if not os.path.exists(‘鏈家房產信息‘):
235         os.mkdir(‘鏈家房產信息‘)
236     # 多線程列表
237     thread_list = []
238     for p in range(1, page+1):
239         if p == 1:
240             url = ‘https://bj.lianjia.com/zufang/%s/‘ % option
241         else:
242             url = ‘https://bj.lianjia.com/zufang/%s/pg%d/‘ % (option, p)
243         print(‘----------開始打印第 %d 頁信息----------‘ % p)
244         lock.acquire()
245         t1 = threading.Thread(target=main, args=(p,url))
246         # 設置守護線程
247         t1.setDaemon(True)
248         t1.start()
249         thread_list.append(t1)
250         lock.release()
251         print(‘----------打印第 %d 頁信息結束----------‘ % p)
252     for t1 in thread_list:
253         t1.join()
254     # 執行數據分析
255     analyze_data()

代碼還有很大的優化空間，python 是藝術品，需要慢慢的精雕細刻，在努力的路上！

爬蟲系列之鏈家的信息爬取及數據分析

enc lib art andro 函數 strip 一次 read 訪問關於鏈家的數據爬取和分析已經實現 1.房屋數據爬取並下載 2.房屋按區域分析 3.房屋按經紀人分析 4.前十經紀人 5.經紀人最有可能的位置分析 6.實現以地區劃分房屋目前存在

Python爬蟲系列之郵編區號爬取

Python爬蟲之<—>全國郵編區號爬取僅供交流探討歡迎提出改進程式碼部分 import re import requests import time import MySQLdb ''' @author:王磊 @time :201

爬蟲系列3：Requests+Xpath 爬取租房網站信息並保存本地

imp 情侶 http \n 頻率 lazy desktop 火車 mode 數據保存本地參考前文爬蟲系列1：https://www.cnblogs.com/yizhiamumu/p/9451093.html 參考前文爬蟲系列2：https://www.cnblo

7-13爬蟲入門之BeautifulSoup對網頁爬取內容的解析

obj logs utf 進行 pan 審查 pri 全球網頁爬取通過beautifulsoup對json爬取的文件進行元素審查，獲取是否含有p標簽 # -*- coding:utf-8 -*- from lxml import html import request

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

成功 -name 保存 eas attr eve lan url att 對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天在整理代碼時，整理了一下之前自己學習爬蟲的一些代碼，今天上第2個簡單的例子，python爬取CSDN博客首頁所有

python爬蟲系列(3.7-使用 bs4 爬取獲取貴州農產品)

一、爬取資料步驟 1、爬取網站地址 2、實現程式碼 import requests from bs4 import BeautifulSoup class Food(object): def __init__(self): &nb

大神教你如果學習Python爬蟲如何才能高效地爬取海量數據

Python 爬蟲分布式大數據編程 Python如何才能高效地爬取海量數據我們都知道在互聯網時代，數據才是最重要的，而且如果把數據用用得好的話，會創造很大的價值空間。但是沒有大量的數據，怎麽來創建價值呢？如果是自己的業務每天都能產生大量的數據，那麽數據量的來源問題就解決啦，但是沒有數

python之爬取網頁數據總結（一）

固定環境變量 http lec 了解線程 rom 第一個正則今天嘗試使用python，爬取網頁數據。因為python是新安裝好的，所以要正常運行爬取數據的代碼需要提前安裝插件。分別為requests Beautifulsoup4 lxml 三個插件。因

初識Redis系列之三：Redis支持的數據類型及使用

ted print 數據類型 eight 排序 sorted ring hang 無序支持的數據類型有五種： string（字符串）、hash（哈希）、list（列表）、set（集合）及zset(sorted set：有序集合)；下面分別對這幾種類型進行簡單的Redis

Python題目5：爬取CFDA數據

get yun div ont header lac 函數信息 con import requests class Cfda: # 初始化函數 def __init__(self): # 初始化要提交數據的網址 self

Python爬取大量數據時防止被封IP

ble tree user range ask ron 都沒有進一步 pri 繼續老套路，這兩天我爬取了豬八戒上的一些數據網址是：http://task.zbj.com/t-ppsj/p1s5.html，可能是由於爬取的數據量有點多吧，結果我的IP被封了，需要自己手動來

1.scrapy爬取的數據保存到es中

create date() city sql none tin alc set reat 先建立es的mapping，也就是建立在es中建立一個空的Index，代碼如下：執行後就會在es建lagou 這個index。 from datetime import

03：requests與BeautifulSoup結合爬取網頁數據應用

fas bsp 2.3 m2e bae DC 信息 type 取數 1.1 爬蟲相關模塊命令回顧　　1、requests模塊 1、 pip install requests 2、 response =

FineBI學習系列之FineBI官網提供的SAP數據集（圖文詳解）

wiki blank 插件後 jdk1.5 jvm 現在 src strong blog 不多說，直接上幹貨！　　這是來自FineBI官網提供的幫助文檔 http://help.finebi.com/http://help.finebi.com/doc

使用webdriver+urllib爬取網頁數據

環境都是 mac net www med har turn 當我 urilib是python的標準庫，當我們使用Python爬取網頁數據時，往往用的是urllib模塊，通過調用urllib模塊的urlopen(url)方法返回網頁對象，並使用read()方法獲得url的h

爬取貓眼數據

api lms () ons 請求 .data nts end 城市 //源碼 # # 導包#import pyximportimport requestsfrom fake_useragent import UserAgentimport json import os

利用linux curl爬取網站數據

sed 紅色 9.png 規則 pad 內容 zha 執行 wget 看到一個看球網站的以下截圖紅色框數據，想爬取下來，通常爬取網站數據一般都會從java或者python爬取，但本人這兩個都不會，只會shell腳本，於是硬著頭皮試一下用shell爬取，方法很笨重，但旨在

python 使用selenium和requests爬取頁面數據

ret pre tex 爬取 test user 發現 rom request 目的：獲取某網站某用戶下市場大於1000秒的視頻信息 1.本想通過接口獲得結果，但是使用post發送信息到接口，提示服務端錯誤。 2.通過requests獲取頁面結果，使用html解析工具，發現

Python爬取房產數據，在地圖上展現！

exc pre 解析 see 爬取註意 app domain 數據庫連接小夥伴，我又來了，這次我們寫的是用python爬蟲爬取烏魯木齊的房產數據並展示在地圖上，地圖工具我用的是 BDP個人版-免費在線數據分析軟件，數據可視化軟件，這個可以導入csv或者excel數據。

另類爬取表格數據

但是 code request 獲取 import 裏的 www. date panda import pandas as pd df = pd.read_html("http://www.air-level.com/air/beijing/", encoding

爬蟲系列之鏈家的信息爬取及數據分析

相關推薦