鏈家深圳租房信息爬取練習附加源碼

阿新 • • 發佈：2018-06-20

list enc dom \n referer brush csv文件 writer nec

from urllib import request
from time import sleep
from  lxml import  etree
import csv
# import random    #sleep(random.random(1)*2) 隨機秒數
# 參數部分
# sz_url = ‘https://sz.lianjia.com/zufang/‘
#
# header = {
#
# ‘Referer‘: ‘https://sz.lianjia.com/zufang/‘,
# ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36‘,
# }
# # 請求部分
# res = request.Request(sz_url,headers=header)
#
# response = request.urlopen(res)
# result = response.read().decode()
# # print(result)
# # 篩選部分
# html = etree.HTML(result)
# name_list = html.xpath(‘//ul[@id="house-lst"]/li/div[@class="info-panel"]/h2/a‘)
# with open(‘house.csv‘,"wb") as f:
#     for name in name_list:
#         title=name.attrib["title"]
#         f.write(title.encode())
#         f.write(‘\n‘.encode())
#         print(title)


# --------------------------------------------------------------------------------------------------------------
# # 參數部分
# sz_url = ‘https://sz.lianjia.com/zufang/105101400296.html‘
#
# header = {
#
# ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36‘,
# }
# # 請求部分
# res = request.Request(sz_url,headers=header)
#
# response = request.urlopen(res)
# result = response.read().decode()
# # print(result)
#
# html = etree.HTML(result)
# name_list = html.xpath(‘//div[@class="brokerName"]/a‘)
#
# for name in name_list:
#     text = name.text
#     print(text)

# @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@code  tree@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
# 請求測試
def getRequet(url,xpath,**headers):
    default_headers = {
        ‘Connection‘: ‘keep-alive‘,
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTM, like Gecko) Chrome/67.0.3396.62 Safari/537.36‘,
    }
    if headers :
        headers ={ **headers, **default_headers}
    else:
        headers = default_headers
    req = request.Request(url,headers=headers)
    response = request.urlopen(req)
    result = response.read().decode()
    html = etree.HTML(result)
    name_list = html.xpath(xpath)
    return name_list
def main():

    with open(‘house.csv‘,"wb") as f:#打開csv文件 寫入數據
        # csv_file = open(‘house.csv‘,‘wb‘)
        # csv_write = csv.writer(csv_file,dialect=‘excel‘)
        zf_url=‘https://sz.lianjia.com/zufang/‘#要訪問的url地址
        zf_xpath=‘//ul[@id="house-lst"]/li/div[@class="info-panel"]/h2/a‘#租房xpath地址
        name_xpath=‘//div[@class="brokerName"]/a‘#聯系人名字xpath
        house_list=getRequet(zf_url,zf_xpath)
        for house  in house_list:

            print(‘正在下載：‘,zf_url)#打印下載鏈接地址
            attrib = house.attrib
            house_name = attrib[‘title‘]
            url =attrib[‘href‘]
            username=getRequet(url,name_xpath)[0].text#取聯系人名字的文本信息下標0
            # csv_write.witerow(house_name,username)
            # print(‘@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@‘)
            # print(name)
            # print(url)


            #
            f.write(house_name.encode())#encode編碼
            f.write(‘\n‘.encode())
            f.write(username.encode())
            f.write(‘\n‘.encode())

            # print(house_name)
            # print(username)
            sleep(1)
            # print(‘@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@‘)
        print(‘下載完成‘)
        f.close()

if __name__==‘__main__‘:
    main()

鏈家深圳租房信息爬取練習附加源碼

list enc dom \n referer brush csv文件 writer nec from urllib import request from time import sleep from lxml import etree import csv # i

爬蟲系列之鏈家的信息爬取及數據分析

enc lib art andro 函數 strip 一次 read 訪問關於鏈家的數據爬取和分析已經實現 1.房屋數據爬取並下載 2.房屋按區域分析 3.房屋按經紀人分析 4.前十經紀人 5.經紀人最有可能的位置分析 6.實現以地區劃分房屋目前存在

Python的scrapy之爬取鏈家網房價信息並保存到本地

width gif pat lse idt ext tst maximum spa 因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並保存到本地。先看鏈家網的源碼。。房價信息都保存在 ul 下的li 裏面 ? 爬蟲結構： ? 其中封裝了一

怎麽用Python爬取抖音小視頻? 資深程序員都這樣爬取的(附源碼)

aid option rip size with open url var mark open 簡介抖音，是一款可以拍短視頻的音樂創意短視頻社交軟件，該軟件於2016年9月上線，是一個專註年輕人的15秒音樂短視頻社區。用戶可以通過這款軟件選擇歌曲，拍攝15秒的音樂短視頻

力軟信息化快速開發框架源碼learun最新版6.3下載

開發聯網集成人員後臺 6.2 com TE ref QQ194633530 力軟敏捷開發框架 6.1.6.2 版本發布新增手機流程-我的流程（可查看流程進度和表單內容）新增手機流程-待辦任務（可查看流程進度和表單內容，審核）新增手機流程-已辦任務（可查看

python scrapy爬取皇冠體育源碼下載網站數據二（scrapy使用詳細介紹）

時間源碼保存文件 i+1 zh-cn china flat url def 1、scrapy工程創建皇冠體育源碼下載論壇：haozbbs.com Q1446595067 在命令行輸入如下命令，創建一個使用scrapy框架的工程 scrapy startproject s

python爬蟲：爬取鏈家深圳全部二手房的詳細信息

data sts rip 二手房 lse area 列表 dom bubuko 1、問題描述：爬取鏈家深圳全部二手房的詳細信息，並將爬取的數據存儲到CSV文件中 2、思路分析: (1)目標網址：https://sz.lianjia.com/ershoufang/ (2

python爬取北京租房信息

python 爬蟲租房助手發現官網的篩選方式不能滿足自己的需求，所以爬取相關網站制作出現在的東西來效果預覽-> <a href="https://virzc.com/2018/05/17/beijingrent/#more" target="_blan

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

我的第一個爬蟲，爬取北京地區短租房信息

爬取 connect except links 效率 chrom cti clas 爬蟲 # 導入程序所需要的庫。import requestsfrom bs4 import BeautifulSoupimport time# 加入請求頭偽裝成瀏覽器headers = {

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

爬取鏈家網租房資訊（萬級資料的簡單實現）

這不是一個很難的專案，沒有ajax請求，也沒有用框架，只是一個requests請求和BeautifulSoup的解析不過，看這段程式碼你會發現，BeautifulSoup不止只有find和fing_all用於元素定位，還有fing_next等其他的更簡單的，

python3爬蟲抓取鏈家上海租房資訊

環境：win10，anaconda3（python3.5）方法一：利用requests獲取網頁資訊，再利用正則提取資料，並將結果儲存到csv檔案。程式碼地址：程式碼抓取到的資料如下所示：從左往右依次是：房屋連結、房屋描述、房屋佈局、房屋大小、所在區、所在區的具體區

Python爬鏈家網租房資訊

爬去鏈家網的租房資訊然後儲存到資料庫中。 #-*- coding:utf-8 -*- import requests import re import random import MySQLdb from bs4 import BeautifulSoup class h

FineUIPro v3.6.0 發布了（3 年助力 200 家企業的信息化建設）！

自定義消息比較自定義信任 logs idt 滾動條資料建設 FineUI（專業版）自從 2014-07-30 發布第一個版本以來，3 年來已經持續更新了 25 個版本，我們的堅持有目共睹，同時也受到了 200 家企業的青睞和信任，感謝一路有你。 FineU

【BioCode】根據seq與位點信息截取窗口

窗口大小 txt -s font == def n) image pau 代碼說明 sequence24371.txt 以上為所有氨基酸的編號，序列，與位點標記。根據標記為“1”的位點，截取窗口：如下（實驗結果）：圖示為一個窗口為12的蛋白質片段 2N+1=2

2018-2-8 租房信息的增刪改和搜索

prim sql語句 idt erro 獲取 aar 方法文檔 htm 建立一個租房信息的增刪改和搜索：首先在數據庫中建表zufang：代碼如下： create table zufang( id int auto_increment primary key,

租房信息

TP ren htm html house http 租房 use com http://nj.rent.house365.com/r_70669775.htmlhttp://nj.rent.house365.com/r_69470715.htmlhttp://nj.ren

Apache防盜鏈和隱藏版本信息

規則 err window 防火墻 r文件 BE 虛擬機 linu c-c 實驗要求：三臺虛擬機分別是：linux和兩臺windows虛擬機，linux虛擬機為服務器，Windows7-1為客戶端，Windows7-2為盜鏈端。實驗步驟：(一)防盜鏈1.把httpd、apr

微信，爬取每日一句，發送至多人，多個群

ever ear con nbsp ret gin 定時任務 linu url Timer(5, send_news) 每日一句，發送至多人，多個群 1 # -*- coding: utf-8 -*- 2 #from __future__ import unicod

鏈家深圳租房信息爬取練習 附加源碼

相關推薦

鏈家深圳租房信息爬取練習附加源碼