1. 程式人生 > >如何使用Python爬取資料?看完這篇文章你就懂了!

如何使用Python爬取資料?看完這篇文章你就懂了!

前段時間小編髮了一篇有關於Python資料型別的文章,由於只是介紹了資料型別,我覺得遠遠不夠,所以呢我現在寫一篇用Python爬取資料的文章來補充。

如何使用Python爬取資料?看完這篇文章你就懂了!

 

首先我會介紹如何使用scrapy抓取二手房資料,然後我會將抓下來的資料進行了一些簡單的分析和視覺化。最後奉上資料,感興趣的朋友可以深入分析

Github地址:https://github.com/HunterChao/Crawler

使用scrapy抓取二手房資料,如下所示:

文章目錄結構

D:.
│ run.py
│ scrapy.cfg

└─LianJia
│ items.py
│ pipelines.py
│ settings.py
│ __init__.py

├─spiders
│ lianjia.py
│ __init__.py

lianjia.py是程式的主要執行檔案,run.py為程式啟動檔案。在pycharm下執行run.py即可啟動程式。

專案分析:

如何使用Python爬取資料?看完這篇文章你就懂了!

 

連結的構造:我們通過抓取首頁可以獲得北京市各城區的名稱(如:東城、西城、朝陽)及對應的拼音,進一步通過遍歷每個城區對應的頁碼數(Pn)即可構造出各城區的二手房連結。

如何使用Python爬取資料?看完這篇文章你就懂了!

 

資訊的抓取:在進入各個城區的二手房頁面時,可匹配出每個房源的詳細資訊。這裡需要注意的是,由於我想將各房源的經緯度資訊獲取以便視覺化到地圖上,需要找到每個房源的詳情頁連結,進入該連結,匹配出經緯度相關的欄位。(resblockPosition)資料欄位:item.py

# -*- coding: utf-8 -*-
import scrapy
class LianjiaItem(scrapy.Item):
# 標籤 小區 戶型 面積 關注人數 觀看人數 釋出時間 價格 均價 詳情連結 經緯度 城區
title = scrapy.Field()
community = scrapy.Field()
model = scrapy.Field()
area = scrapy.Field()
focus_num = scrapy.Field()
watch_num = scrapy.Field()
time = scrapy.Field()
price = scrapy.Field()
average_price = scrapy.Field()
link = scrapy.Field()
Latitude = scrapy.Field()
city = scrapy.Field()

主要執行函式:lianjia.py

# -*- coding: utf-8 -*-
import scrapy
import requests
import re
import time
from lxml import etree
from ..items import LianjiaItem
from scrapy_redis.spiders import RedisSpider
class LianjiaSpider(RedisSpider):
name = 'lianjiaspider'
redis_key = 'lianjiaspider:urls'
start_urls = 'http://bj.lianjia.com/ershoufang/'
def start_requests(self):
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22
Safari/537.36 SE 2.X MetaSr 1.0'
headers = {'User-Agent': user_agent}
yield scrapy.Request(url=self.start_urls, headers=headers, method='GET', callback=self.parse)
def parse(self, response):
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22
Safari/537.36 SE 2.X MetaSr 1.0'
headers = {'User-Agent': user_agent}
lists = response.body.decode('utf-8')
selector = etree.HTML(lists)
area_list = selector.xpath('/html/body/div[3]/div[2]/dl[2]/dd/div[1]/div/a')
for area in area_list:
try:
area_han = area.xpath('text()').pop() # 地點
area_pin = area.xpath('@href').pop().split('/')[2] # 拼音
area_url = 'http://bj.lianjia.com/ershoufang/{}/'.format(area_pin)
print(area_url)
yield scrapy.Request(url=area_url, headers=headers, callback=self.detail_url, meta={"id1":area_han,"id2":area_pin} )
except Exception:
pass
def get_latitude(self,url): # 進入每個房源連結抓經緯度
p = requests.get(url)
contents = etree.HTML(p.content.decode('utf-8'))
latitude = contents.xpath('/ html / body / script[19]/text()').pop()
time.sleep(3)
regex = '''resblockPosition(.+)'''
items = re.search(regex, latitude)
content = items.group()[:-1] # 經緯度
longitude_latitude = content.split(':')[1]
return longitude_latitude[1:-1]
def detail_url(self,response):
'http://bj.lianjia.com/ershoufang/dongcheng/pg2/'
for i in range(1,101):
url = 'http://bj.lianjia.com/ershoufang/{}/pg{}/'.format(response.meta["id2"],str(1))
time.sleep(2)
try:
contents = requests.get(url)
contents = etree.HTML(contents.content.decode('utf-8'))
houselist = contents.xpath('/html/body/div[4]/div[1]/ul/li')
for house in houselist:
try:
item = LianjiaItem()
item['title'] = house.xpath('div[1]/div[1]/a/text()').pop()
item['community'] = house.xpath('div[1]/div[2]/div/a/text()').pop()
item['model'] = house.xpath('div[1]/div[2]/div/text()').pop().split('|')[1]
item['area'] = house.xpath('div[1]/div[2]/div/text()').pop().split('|')[2]
item['focus_num'] = house.xpath('div[1]/div[4]/text()').pop().split('/')[0]
item['watch_num'] = house.xpath('div[1]/div[4]/text()').pop().split('/')[1]
item['time'] = house.xpath('div[1]/div[4]/text()').pop().split('/')[2]
item['price'] = house.xpath('div[1]/div[6]/div[1]/span/text()').pop()
item['average_price'] = house.xpath('div[1]/div[6]/div[2]/span/text()').pop()
item['link'] = house.xpath('div[1]/div[1]/a/@href').pop()
item['city'] = response.meta["id1"]
self.url_detail = house.xpath('div[1]/div[1]/a/@href').pop()
item['Latitude'] = self.get_latitude(self.url_detail)
except Exception:
pass
yield item
except Exception:
pass

抓取效果:

如何使用Python爬取資料?看完這篇文章你就懂了!

 

以上就是如何抓取資料了,大家是否成功將資料爬取下來了呢?假如還有不懂的地方或者需要原始碼,可以加群959997225即可獲得!

北京二手房資料:https://pan.baidu.com/share/init?surl=nuCeVrV,密碼:rfli

本文來自網路,如有侵權,請聯絡小編刪除!