爬蟲入門之————————————————使用xpath語法獲取資料

阿新 • • 發佈：2019-01-12

準備工作

⚫瞭解爬蟲的資料處理體系結構

⚫ 處理資料的軟體準備採集到的結構化資料[如 html 網頁文件資料] python 開發環境 lxml 第三方庫結構化資料基本理論：DOM 模型

1結構化資料

具備有一定的結構，有預定義規則的資料模型，統稱為結構化資料如：資料進行格式化展示的 HTML 文件中的資料、資料進行格式化傳輸的 XML 文件中的資料、資料進行格式化整理的 Excel 表格中的資料等等都是結構化資料；同時按照表中行和列的形式進行資料整理的資料庫中的資料，也是結構化資料
因為結構化資料有預定義規則的資料模型，所以可以被按照路徑進行解析爬蟲採集的大都是網路上的網頁資料，就常見的兩種資料格式進行分析【html 網頁文件資料、xml 資料文件】

2.xlml下載安裝

官方網站：https://lxml.de/
下載安裝：pypi 下載地址 https://pypi.org/project/lxml/#files 下載對應的 wheel 包，通過命令的方式直接安裝即可

pip install lxml-4.2.5-cp36-cp36m-win32.whl

注意：下載離線包時切記注意安裝依賴關係[依賴的python 平臺版本和作業系統平臺]
命令安裝方式：開啟 windows 的命令列 or unix/linux 的 shell 視窗通過包管理命令安裝：pip install lxml

招聘網站的資訊爬取

案例演示：

"""
Version 1.1.0
Author lkk
Email  
[email protected]
date 2018-11-20 15:38
DESC 招聘網站資訊爬取
"""
from urllib import request

from fake_useragent import UserAgent
import chardet,pymysql
from lxml import etree


# 定義請求頭
def getinfo():
    ua = UserAgent()
    headers = {
        'User-agent': ua.random
    }
    url_list = [
        'http://sydw.huatu.com/ha/zhaopin/1.html',
        'http://sydw.huatu.com/ha/zhaopin/2.html',
        'http://sydw.huatu.com/ha/zhaopin/3.html',
        'http://sydw.huatu.com/ha/zhaopin/4.html',
        'http://sydw.huatu.com/ha/zhaopin/5.html',
        'http://sydw.huatu.com/ha/zhaopin/6.html',
        'http://sydw.huatu.com/ha/zhaopin/7.html',
        'http://sydw.huatu.com/ha/zhaopin/8.html',
        'http://sydw.huatu.com/ha/zhaopin/9.html',
        'http://sydw.huatu.com/ha/zhaopin/10.html',
                ]
    for j in url_list:
        start_url = request.Request(j, headers=headers)
        response = request.urlopen(start_url)
        content = response.read()
        encoding = chardet.detect(content).get('encoding')
        content = content.decode(encoding, 'ignore')
        # print(content)
        # 通過xpath直接提取其中的某個指定資料
        docs = etree.HTML(content)
        times = docs.xpath("//ul[@class='listSty01']/li/time/text()")
        city = docs.xpath("//ul[@class='listSty01']/li/lm/a/text()")
        info = docs.xpath("//ul[@class='listSty01']/li/a/text()")
        for i in range(len(times)):
            print(times[i], city[i], info[i])
            mysql(times[i], city[i], info[i])


class DownMysql:
    def __init__(self, times, city, info):
        self.times = times
        self.city = city
        self.info = info
        self.connect = pymysql.connect(
            host='localhost',
            db='data',
            port=3306,
            user='root',
            passwd='123456',
            charset='utf8',
            use_unicode=False
        )
        self.cursor = self.connect.cursor()

    # 儲存資料到MySQL中
    def save_mysql(self):
        sql = "insert into invite(times, city, info) VALUES (%s,%s,%s)"
        try:
            self.cursor.execute(sql, (self.times, self.city, self.info))
            self.connect.commit()
            print('資料插入成功')
        except Exception as e:
            print(e)


# 新建物件，然後將資料傳入類中
def mysql(times, city, info):
    down = DownMysql(times, city, info)
    down.save_mysql()


if __name__ == '__main__':
    getinfo()

3.lxml-xpath常見的基本操作

電影天堂的爬取

import requests, chardet
from lxml import html
from fake_useragent import UserAgent

ua = UserAgent()
headers = {'User-agent': ua.random, 'cookie': None}
response = requests.get('http://www.dy2018.com', headers=headers)

content = response.content
encoding = chardet.detect(content).get('encoding')
content = content.decode(encoding, 'ignore')

docs = html.fromstring(content)
links = docs.xpath("//div[@class='co_content222']/ul/li/a")
for link in links:     
    print(link.xpath('string(.)').strip())

爬蟲入門之————————————————使用xpath語法獲取資料

準備工作

爬蟲入門之————————————————使用xpath語法獲取資料

python爬蟲入門之————————————————第四節--使用bs4語法獲取資料

Python爬蟲利器三之Xpath語法與lxml庫的用法

爬蟲入門之爬取靜態網頁表格資料

python爬蟲學習之XPath基本語法

7-13爬蟲入門之BeautifulSoup對網頁爬取內容的解析

python 爬蟲入門之正則表達式一

爬蟲學習之-xpath

Python 爬蟲入門之爬取妹子圖

Python 爬蟲開發之xpath使用

Java入門之基礎語法碎片知識彙總

HBase實戰案例之使用Scanner獲取資料

Python爬蟲入門之五Handler處理器和自定義Opener

Python爬蟲入門之二HTTP(HTTPS)請求與響應

SpringBoot 入門之二：獲取Properties中的值，通過類配置來替代原SpringXML的配值和注入方式

python爬蟲入門之————————————————案例演練

python爬蟲入門之————————————————第三節requests詳解

Python爬蟲入門之豆瓣短評爬取

python爬蟲入門之爬取小說.md

爬蟲入門之驗證碼的處理--------------------------pytesseract庫的使用

爬蟲入門之————————————————使用xpath語法獲取資料

準備工作

相關推薦