Python爬蟲抓取攜程網機票資訊併發郵件通知

阿新 • • 發佈：2019-02-16

背景：
由於要買機票，所以一直進行搜尋，爬蟲可以幫我解決這個問題；

解釋的超級詳細。
於是通過這一過程，基本瞭解了一些；

查詢上海到西安 4.29～05.02的機票：

#coding:utf-8

import urllib2
from lxml import etree
import json
import random
import sys
reload(sys)
sys.setdefaultencoding('utf8')

def get_json2(date,rk,CK,r):
    '''根據構造出的url獲取到航班資料'''
    url= "http://flights.ctrip.com/domesticsearch/search/SearchFirstRouteFlights?DCity1=SHA&ACity1=SIA&SearchType=S&DDate1=%s&IsNearAirportRecommond=0&rk=%s&CK=%s&r=%s" 
%(date,rk,CK,r)
    headers={'Host':"flights.ctrip.com",'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0",'Referer':"http://flights.ctrip.com/booking/hrb-sha-day-1.html?ddate1=2017-04-29"}
    headers['Referer']="http://flights.ctrip.com/booking/hrb-sha-day-1.html?ddate1=%s"%date
    req=urllib2.Request(url,headers=headers)
    res=urllib2.urlopen(req)
    content=res.read()
    dict_content=json.loads(content,encoding="gb2312" 
)
    length = len(dict_content['fis']) 
    # print length
    i = 0
    for i in range(length):
        if ((dict_content['fis'][i][u'lp']) < 600 ):
            print (dict_content['fis'][i][u'lp']),
            print (dict_content['fis'][i][u'dt']),
            print (dict_content['fis'][i][u'at' 
]) 
            #print (dict_content['fis'][i][u'dpbn'])  


def get_parameter(date):
    '''獲取重要的引數
    date:日期，格式示例：2016-05-13
    '''
    url='http://flights.ctrip.com/booking/hrb-sha-day-1.html?ddate1=%s'%date
    res=urllib2.urlopen(url).read()
    tree=etree.HTML(res)
    pp=tree.xpath('''//body/script[1]/text()''')[0].split()
    CK_original=pp[3][-34:-2]
    CK=CK_original[0:5]+CK_original[13]+CK_original[5:13]+CK_original[14:]

    rk=pp[-1][18:24]
    num=random.random()*10
    num_str="%.15f"%num
    rk=num_str+rk
    r=pp[-1][27:len(pp[-1])-3]

    return rk,CK,r

if __name__=='__main__':
    dates=['2017-04-29','2017-04-30','2017-05-01','2017-05-02']

    for date in dates:
        rk,CK,r=get_parameter(date)
        get_json2(date,rk,CK,r)
        print "-----"

傳送郵件程式（我找到出處就放上來）：

# -*- coding: utf-8 -*-

from email import encoders
from email.header import Header
from email.mime.text import MIMEText
from email.utils import parseaddr, formataddr
import smtplib

def _format_addr(s):
    name, addr = parseaddr(s)
    return formataddr(( \
        Header(name, 'utf-8').encode(), \
        addr.encode('utf-8') if isinstance(addr, unicode) else addr))

from_addr = raw_input('From: ')
password = raw_input('Password: ')
to_addr = raw_input('To: ')
smtp_server = raw_input('SMTP server: ')

msg = MIMEText('Not just fly fight...', 'plain', 'utf-8')
msg['From'] = _format_addr(u'Air <%s>' % from_addr)
msg['To'] = _format_addr(u'126.Air <%s>' % to_addr)
msg['Subject'] = Header(u'flight……', 'utf-8').encode()

server = smtplib.SMTP(smtp_server, 25)
server.set_debuglevel(1) # 正式用改為0就好啦
server.login(from_addr, password)
server.sendmail(from_addr, [to_addr], msg.as_string())
server.quit()

將查詢資訊和傳送郵件的程式整合起來，大概就是這樣，

#!/usr/bin/python
# -*- coding: utf-8 -*-

import urllib2
from lxml import etree
import json
import random
from email import encoders
from email.header import Header
from email.mime.text import MIMEText
from email.utils import parseaddr, formataddr
import smtplib
import sys
reload(sys)
sys.setdefaultencoding('utf8')

from_addr = "****@126.com" #raw_input('From: ')
password = "******" #raw_input('Password: ')
to_addr = "********@qq.com" #raw_input('To: ')
smtp_server = "smtp.126.com"#raw_input('SMTP server: ')

def _format_addr(s):
    name, addr = parseaddr(s)
    return formataddr(( \
        Header(name, 'utf-8').encode(), \
        addr.encode('utf-8') if isinstance(addr, unicode) else addr))

def get_json2(date,rk,CK,r):
    '''根據構造出的url獲取到航班資料'''
    url= "http://flights.ctrip.com/domesticsearch/search/SearchFirstRouteFlights?DCity1=SHA&ACity1=SIA&SearchType=S&DDate1=%s&IsNearAirportRecommond=0&rk=%s&CK=%s&r=%s"%(date,rk,CK,r)
    headers={'Host':"flights.ctrip.com",'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0",'Referer':"http://flights.ctrip.com/booking/hrb-sha-day-1.html?ddate1=2017-04-29"}
    headers['Referer']="http://flights.ctrip.com/booking/hrb-sha-day-1.html?ddate1=%s"%date
    req=urllib2.Request(url,headers=headers)
    res=urllib2.urlopen(req)
    content=res.read()
    dict_content=json.loads(content,encoding="gb2312")
    length = len(dict_content['fis']) 
    # print length
    i = 0
    for i in range(length):
        if ((dict_content['fis'][i][u'lp']) < 600 ):
            print (dict_content['fis'][i][u'lp']),
            print (dict_content['fis'][i][u'dt']),
            print (dict_content['fis'][i][u'at']),
            print (dict_content['fis'][i][u'dpbn'])  
            if ((dict_content['fis'][i][u'lp']) <= 450 ):
                msg = MIMEText(('%r at %s in %s'% ((dict_content['fis'][i][u'lp']),(dict_content['fis'][i][u'dt']),(dict_content['fis'][i][u'dpbn']))),'plain', 'utf-8')
                msg['From'] = _format_addr(u'Air <%s>' % from_addr)
                msg['To'] = _format_addr(u'126.Air <%s>' % to_addr)
                msg['Subject'] = Header(u'flight…%r '%(dict_content['fis'][i][u'lp']), 'utf-8').encode()
                server = smtplib.SMTP(smtp_server, 25)
                server.set_debuglevel(0)
                server.login(from_addr, password)
                server.sendmail(from_addr, [to_addr], msg.as_string())
                server.quit()




def get_parameter(date):
    '''獲取重要的引數
    date:日期，格式示例：2016-05-13
    '''
    url='http://flights.ctrip.com/booking/hrb-sha-day-1.html?ddate1=%s'%date
    res=urllib2.urlopen(url).read()
    tree=etree.HTML(res)
    pp=tree.xpath('''//body/script[1]/text()''')[0].split()
    CK_original=pp[3][-34:-2]
    CK=CK_original[0:5]+CK_original[13]+CK_original[5:13]+CK_original[14:]

    rk=pp[-1][18:24]
    num=random.random()*10
    num_str="%.15f"%num
    rk=num_str+rk
    r=pp[-1][27:len(pp[-1])-3]

    return rk,CK,r

if __name__=='__main__':
    dates=['2017-04-29','2017-04-30','2017-05-01']

    for date in dates:
        rk,CK,r=get_parameter(date)
        get_json2(date,rk,CK,r)
        print "-----"

然後使用crontab 做一個定時任務，每20mins執行一次；
基本格式 :

*　　*　　*　　*　　*　　command
分　 時　 日 　月　 周 　命令

so,

0,20,40 * * * * python ~/test.py

儘管有很多問題，正在學習。

Python爬蟲抓取攜程網機票資訊併發郵件通知

背景：由於要買機票，所以一直進行搜尋，爬蟲可以幫我解決這個問題；解釋的超級詳細。於是通過這一過程，基本瞭解了一些；查詢上海到西安 4.29～05.02的機票： #coding:utf-8 import urllib2 from

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

python爬蟲抓取zabbix監控圖，並發郵件

python 抓取最近十九大非常煩，作為政府網站維護人員，簡直是夜不能寐。各種局子看著你，內保局，公安部，360，天融信，華勝天成，中央工委，政治委員會...360人員很傻X，作為安全公司，竟然不能抓到XX網站流量，在我們機房放的探針更是搞笑，讓我們手工上報流量數據。白天還行，晚上怎麽辦？給他寫個腳

爬蟲 — 爬取攜程的航班資訊

功能介紹：輸入起點、終點、時間就能得到攜程上的航班資訊程式碼： from prettytable import PrettyTable import requests import json def xiecheng(dcity,acity,date):

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

簡單介紹一下爬蟲原理。並給出 51job網站完整的爬蟲方案。爬蟲基礎知識資料來源網路爬蟲的資料一般都來自伺服器的響應結果，通常有html和json資料等，這兩種資料也是網路爬蟲的主要資料來源。其中html資料是網頁的原始碼，通過瀏覽器-檢視原始碼可

python爬蟲抓取新華網新聞並自動生成word文件

認識一個在學校廣播電臺的學妹, 聽她說她們每天都要在網上找新聞, 國際, 國內, 和校內各五篇, 然後將其做成word文件列印, 個人感覺這種活非常浪費時間, 應該寫個程式幫我們自動完成. 後來沒事的時候就寫了這個python程式實現這個功能. 程式用pyth

python爬蟲——抓取自如網房源,匯出為csv

1.抓取自如網房源，其實為了後面一個小專案做資料採集工作 2.為什麼選擇自如，是因為我做租房的同學說，自如網的房源質量比較高 3.因為博主是暫居深圳，就先以深圳市的房源為示例 base_url = "http://sz.ziroom.com/z/nl/

Python爬蟲抓取煎蛋(jandan.net)無聊圖

下載 logs start input req com read ref color 1 #!/usr/bin/python 2 #encoding:utf-8 3 ‘‘‘ 4 @python 3.6.1 5 @author: [email prote

用python來抓取“煎蛋網”上面的美女圖片，尺度很大哦！哈哈

each file like http add 寫入 header 。。 num 廢話不多說，先上代碼： import urllib.request import re #獲得當前頁面的頁數page_name def get_pagenum(url): req

Python爬蟲--抓取單一頁面上的圖片文件學習

python 爬蟲 #！/usr/bin/python import sys #正則表達式庫 import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() ret

Python爬蟲 —— 抓取美女圖片

In root lxml 取圖 ext time style main HR 代碼如下： 1 #coding:utf-8 2 # import datetime 3 import requests 4 import os 5 import sys

Python爬蟲 —— 抓取美女圖片（Scrapy篇）

parse color 爬蟲 select 尺度 dex -i www 模塊雜談：之前用requests模塊爬取了美女圖片，今天用scrapy框架實現了一遍。（圖片尺度確實大了點，但老衲早已無戀紅塵，權當觀賞哈哈哈） Item: # -*- codi

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

Python爬蟲抓取純靜態網站及其資源

遇到的需求前段時間需要快速做個靜態展示頁面，要求是響應式和較美觀。由於時間較短，自己動手寫的話也有點麻煩，所以就打算上網找現成的。中途找到了幾個頁面發現不錯，然後就開始思考怎麼把頁面給下載下來。由於之前還沒有了解過爬蟲，自然也就沒有想到可以用爬蟲來抓取網頁內容。所以我採取的辦法

scrapy抓取拉勾網職位資訊（一）——scrapy初識及lagou爬蟲專案建立

本次以scrapy抓取拉勾網職位資訊作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visual studio一勞永逸，如果報錯缺少前置依賴，就先安裝依賴）本篇

用python爬蟲抓取視訊網站所有電影

執行環境 IDE丨pycharm 版本丨Python3.6 系統丨Windows ·實現目的與思路· 目的：實現對騰訊視訊目標url的解析與下載，由於第三方vip解析，只提供線上觀看，隱藏想實現對目標視訊的下載思路：首先拿到想要看的騰訊電影url,通過第三方vip視訊解析網站進

Python爬蟲-抓取divnil動漫妹子圖

目標網站 https://divnil.com 首先看看這網站是怎樣載入資料的; 開啟網站後發現底部有下一頁的按鈕，ok，爬這個網站就很簡單了; 學習Python中有不明白推薦加入交流群

Python爬取攜程旅遊行程資訊+GIS視覺化

一、需求：爬取攜程旅行網的“北京推薦行程”首頁的各個行程文章，將各個行程所包含的景點資訊提取出來，並匯入ArcGIS進行GIS視覺化。二、爬取思路：爬取北京推薦行程主頁的各個文章的URL，然後通過該URL爬取出行程文章的資料

第一個Python爬蟲-抓取煎蛋網上圖片

背景作為一個計算機基礎薄弱的電氣工程師，廖大的教程看到常用的內建模組時，看的頭大，特別是看到HTMLParser時，已宛如天書了。這時作為一個初學者的劣勢就暴露出來了，我不知道哪部分知識是理解這些模組的前置條件，即使知道是哪部分知識，但不知道該理解到什麼程度才能解決當前的問題。個人建議

python爬蟲爬取詩詞名句網

使用requests庫，xpath庫 import requests import time from lxml import etree # 去請求頁面的函式 def request_Header(url): headers = { 'User

Python爬蟲抓取攜程網機票資訊併發郵件通知

相關推薦