Python爬取安居客經紀人資訊

阿新 • • 發佈：2018-12-03

Python爬取安居客經紀人資訊

Python2.7.15
今天我們來爬取安居客經紀人的資訊。這次我們不再使用正則，我們使用beautifulsoup。不瞭解的可以先看一下這個文件，便於理解。https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

一、獲取原始碼

for page in range(1,8):
    url ="https://beijing.anjuke.com/tycoon/p" + str(page)+"/"
    response = urllib2.urlopen(url)
    content = response.read()

老套路urllib2

二、使用bs4

首先看原始碼，找到經紀人資訊對應的標籤，然後使用beautifulsoup方法，這裡的html.parser是對應的解析器

    soup = BeautifulSoup(content,'html.parser')
    a = soup.find_all('h3')
    b = soup.find_all(class_=re.compile("brokercard-sd-cont clearfix"))
    c = soup.find_all("p", attrs={"class": "jjr-desc"})
    d = soup.find_all("p", attrs={"class": "jjr-desc xq_tag"})
    e = soup.find_all(class_=re.compile("broker-tags clearfix"))

a,b,c,d,e分別對應經紀人姓名，評價，門店，熟悉，業務
每一項都是列表
將它們迴圈輸出

    n = 0
    for jjr in a:
        o = jjr.get_text(strip=True).encode('utf-8')
        p = b[n].get_text(strip=True).encode('utf-8')
        q = c[2*n].get_text(strip=True).encode('utf-8')
        r = d[n].get_text(strip=True).encode('utf-8')
        s = e[n].get_text(strip=True).encode('utf-8')
        n+=1

這裡要注意編碼問題，使用beautifulsoup解析後的文件是Unicode編碼，直接輸出會亂碼，而且這個編碼模式也無法寫入文件或資料庫，所以後面要加上encode(‘utf-8’)來重新編碼

三、寫入資料庫

        insert_agent = ("INSERT INTO AGENT(姓名,評價,門店,熟悉,業務)" "VALUES(%s,%s,%s,%s,%s)")
        data_agent = (o,p,q,r,s)
        cursor.execute(insert_agent, data_agent)

記得先建立資料庫連線，和要寫入的表

四、完整程式碼

# coding=utf-8
from bs4 import BeautifulSoup
import urllib2
import re
import MySQLdb

conn=MySQLdb.connect(host="127.0.0.1",user="root",passwd="199855pz",db="pz",charset='utf8')
print '連線成功'
cursor = conn.cursor()
cursor.execute("DROP TABLE IF EXISTS AGENT")
sql = '''CREATE TABLE AGENT(姓名 char(4) ,評價 char(50) ,門店 char(50) ,熟悉 char(50) ,業務 char(50))'''
cursor.execute(sql)

for page in range(1,8):
    url ="https://beijing.anjuke.com/tycoon/p" + str(page)+"/"
    response = urllib2.urlopen(url)
    content = response.read()
    soup = BeautifulSoup(content,'html.parser')
    a = soup.find_all('h3')
    b = soup.find_all(class_=re.compile("brokercard-sd-cont clearfix"))
    c = soup.find_all("p", attrs={"class": "jjr-desc"})
    d = soup.find_all("p", attrs={"class": "jjr-desc xq_tag"})
    e = soup.find_all(class_=re.compile("broker-tags clearfix"))

    n = 0
    for jjr in a:
        o = jjr.get_text(strip=True).encode('utf-8')
        p = b[n].get_text(strip=True).encode('utf-8')
        q = c[2*n].get_text(strip=True).encode('utf-8')
        r = d[n].get_text(strip=True).encode('utf-8')
        s = e[n].get_text(strip=True).encode('utf-8')
        n+=1
        insert_agent = ("INSERT INTO AGENT(姓名,評價,門店,熟悉,業務)" "VALUES(%s,%s,%s,%s,%s)")
        data_agent = (o,p,q,r,s)
        cursor.execute(insert_agent, data_agent)
conn.commit()

PS.安居客更新了，原始碼有一些變動，但爬取資訊還是老方法。

Python爬取安居客經紀人資訊

Python爬取安居客經紀人資訊 Python2.7.15 今天我們來爬取安居客經紀人的資訊。這次我們不再使用正則，我們使用beautifulsoup。不瞭解的可以先看一下這個文件，便於理解。https://beautifulsoup.readthedocs.io/zh_CN/v4.4.

python爬取安居客（BeautifulSoup）

# -*- coding: utf-8 -*- """ Created on Fri Dec 15 10:26:06 2017 @author: Administrator """ import requests from bs4 import BeautifulSou

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

爬取安居客上的優質業務員資訊

coding=utf-8 import urllib2 import urllib import re f = open(‘D:/python1/renwu.txt’,“a”,) from bs4 import BeautifulSoup for i in range(1,5): u

Python爬取淘寶商品資訊

頁面分析開啟淘寶搜尋衛衣男檢視原始碼我們這裡可以找到幾個關鍵詞通過分析我們可以找到價格，郵費，商家地址，付款人數，商家ID，店鋪名稱。分析URL 我們可以看到第一頁url：https://s.taobao.com/search?q=%E5%8D%AB%E

用python爬取二手房交易資訊並進行分析

用python爬取二手房交易資訊並分析第一步：編寫爬蟲爬取某平臺上海市十個區共900條二手房的交易資訊 #爬取上海十個區的二手房價資訊 import requests from bs4 import BeautifulSoup import csv #

使用python爬取8684.cn公交資訊

使用庫如果庫缺失請自行下載 import requests import time from bs4 import BeautifulSoup import json 原始碼 import requests import time from bs4

Python爬取淘寶店鋪資訊

1.採用Chrome無頭瀏覽模式，後臺自動執行 2.函式結構化，易於擴充套件改變 3.異常重啟，防止崩潰已經封裝完畢 import re from selenium import webdriver from selenium.webdriver.common.by

python3 [爬蟲實戰] selenium + requests 爬取安居客

很簡單，這裡是根據網友的求助爬取的安居客上的一個頁面的全部地區名稱跟連結因為她用的scrapy框架，感覺有些大才小用了，所以就直接用了一個requests庫，selenium 和xpath進行一整頁資料的爬取獲取的內容：包括地區名，地

python_爬取【安居客房源資訊】

最近在看房子，試著抓取了安居客上房源資訊，供大家學習參考。 #-*- encoding=UTF-8 -*- from urllib.request import urlopen from bs4 import BeautifulSoup import xlrd import

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

成功 -name 保存 eas attr eve lan url att 對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天在整理代碼時，整理了一下之前自己學習爬蟲的一些代碼，今天上第2個簡單的例子，python爬取CSDN博客首頁所有

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

python爬取自如房間資訊(二)

主要是針對自如房價的爬取。以下程式碼對房價圖片進行處理，將裡面的數字提取出來，然後用knn最近鄰演算法去對圖片上的資料進行分類。 import sys import cv2 import numpy as np ####### training part ###########

python爬取自如房間資訊(一)

使用python和selenium+Chrome Headless爬取自如房間資訊，並將結果儲存在MongoDB中。其中最麻煩的應該是每間房的價格，因為自如是用一張圖片和offset來顯示價格，所以不能直接獲得。但我們可以通過將圖片轉為文字，再通過偏移量將數字組合為價格。在這裡我們使用的是Ch

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

python實戰之網路爬蟲（爬取新聞內文資訊）

（1）前期準備：開啟谷歌瀏覽器，進入新浪新聞網國內新聞頁面，點選進入其中一條新聞，開啟開發者工具介面。獲取當前網頁資料，然後使用BeautifulSoup進行剖析，程式碼： import requests from bs4 import BeautifulSoup res = requests.

Python爬蟲實戰專案2 | 動態網站的抓取（爬取電影網站的資訊）

1.什麼是動態網站？動態網站和靜態網站的區別在於，網頁中常常包含JS，CSS等動態效果的內容或者檔案，這些內容也是網頁的有機整體。但對於瀏覽器來說，它是如何處理這些額外的檔案的呢？首先瀏覽器先下載html檔案，然後根據需要，下載JS等額外檔案，它會自動去下載它們，如果我們要爬取這些網頁中的動態

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

python+itchat 爬取微信好友資訊

專案環境語言：Python3 編輯器：Pycharm 導包：matplotlib、numpy、wordCloud、PIL、jieba、itchat 前言近朱者赤，近墨者黑。微信已成為我們生活中必不可少的通訊社交工具，朋友圈一個分享我們生活的平臺，接下來先拿我的微信好友開刀，一

Python爬取天氣資訊並定時傳送給微信好友(異地戀神器)！！

效果前言中國天氣網： http://www.weather.com.cn/ 點選右上角的具體的天氣資料想獲取哪個城市的天氣，就搜尋城市進行切換這裡以青島為例可以看到此時url為： http://www.weather.com.cn/weat

Python爬取安居客經紀人資訊