1. 程式人生 > >python爬蟲獲取js動態資源

python爬蟲獲取js動態資源

# coding:utf-8
# 電視貓網址:https://www.tvmao.com/program
import requests
from lxml import etree
from selenium import webdriver

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                         'Chrome/69.0.3497.100 Safari/537.36',
           'Referer': 'https://www.tvmao.com/'}
url_list = ['https://www.tvmao.com/program/duration/cctv/w{}.html',
            'https://www.tvmao.com/program/duration/satellite/w{}.html']
# 央視和衛視
for url_program in url_list:
    # 星期一到星期日
    for i in range(1, 8):
        url = url_program.format(i)
        html = requests.get(url, headers=headers).text
        html = etree.HTML(html)
        td = html.xpath('//td[@class="tdchn"]')
        # 電視臺
        for j in td:
            href = 'https://www.tvmao.com'+j.xpath('./a/@href')[0]
            name_tv = j.xpath('./a/text()')[0]
            # 獲取js動態載入內容
            driver = webdriver.Chrome(executable_path='C:\Program Files (x86)\Google\Chrome'
                                                      '\Application\chromedriver.exe')
            driver.get(href)
            program = driver.page_source
            program = etree.HTML(program)
            li = program.xpath('//ul[@id="pgrow"]/li|//ul[@id="pgrow"]/li[not(@class)]')
            # 節目單
            for k in li:
                name_time = k.xpath('.//span/text()')
                name = k.xpath('.//a/text()')
                if name_time:  # 判斷列表是否為空
                    name_time = name_time[0]
                else:
                    continue
                if name:
                    name = name[0]
                else:
                    continue
                print(name_time)
                print(name)

相關推薦

python爬蟲獲取js動態資源

# coding:utf-8 # 電視貓網址:https://www.tvmao.com/program import requests from lxml import etree from selenium import webdriver headers

python 爬蟲獲取文件式網站資源(基於python 3.6)

codes 網頁 大小 file sel dal 網頁代碼 目錄 多級目錄 import urllib.requestfrom bs4 import BeautifulSoupfrom urllib.parse import urljoinfrom Cat.findLink

python 爬蟲獲取文件式網站資源完整版(基於python 3.6)

sta 不支持 bytes ror 啟動 www des find parse <--------------------------------下載函數-----------------------------> import requestsimport t

簡談-Python爬蟲破解JS加密的Cookie

ref 我們 cep tro python 復雜 load comment get   通過Fiddler抓包比較,基本可以確定是JavaScript生成加密Cookie導致原來的請求返回521。 發現問題:    打開Fiddler軟件,用瀏覽器打開目標站點(http:/

python爬蟲 selenium+phantomjs動態解析網頁,加載頁面成功,返回空數據

img 使用 一個 做的 ima 導數 技術分享 信息 之前 廢話不多說,直接說重點: 剛開始做的時候,代理IP,頭部信息池,都已經做好了,使用selenium+phantomjs獲取js動態加載後的源碼 起初挺好的,能出來動態加載後的源碼,但是運行了幾次之後,電腦有點卡頓

Python爬蟲實例 動態ip+抓包+驗證碼自動識別

PE IT agent 也有 pass ttr timeout edi targe   最近出於某種不可描述的原因,需要爬一段數據,大概長這樣:      是一個價格走勢圖,鼠標移到上面會顯示某個時刻的價格,需要爬下來日期和價格。   第一步肯定先看源代碼,找到了這

python 爬蟲獲取世界杯比賽賽程

star odin csv文件 cal requests tex pre brush c-c #!/usr/bin/python # -*- coding:utf8 -*- import requests import re import os import tim

有哪些網站值得用python爬蟲獲取很有價值的資料

 ^___^一個程式設計師的淘寶店:點選開啟連結,助你快速學習python技術的一臂之力,不喜歡看廣告的請忽略這條! 0、IT桔子和36Kr在專欄文章中(http://zhuanlan.zhihu.com/p/20714713),抓取IT橘子和36Kr的各公司的投融資資料

Python爬蟲處理JS翻頁的一種方法,利用Ajax非同步請求

前端方面知識不是很好,只是想解決有關Python爬蟲翻頁的問題 =。=  如有不對,還望指正 瀏覽器:Google 利用區域性更新這種翻頁的方式,同樣需要進行一個url請求,因此我們的目的就是找到這個url 1.分析 如圖所示,頁面翻頁採用了JS的方法 &nb

Python爬蟲例項九州動態IP使用HTTP的urllib2中的ProxyHandler設定。

           例如很多網站會檢測某一段時間某個IP的訪問次數,如果訪問頻率太快以至於看起來不像正常訪客,它可能就會會禁止這個IP的訪問。一些網站會有相應的反爬蟲措施,所以我們需要設定一些代理伺服器,每隔一段時間換一個代理,就算IP被

python爬蟲獲取強智科技教務系統學科成績(模擬登入+成績獲取

直接貼出程式碼提供分享 歡迎訪問例項(本作者自己寫的網站):www.wjn1996.cn/estudy,進入首頁往下點選“常用工具》教務成績查詢”,網站採用jsp呼叫python指令碼,具體疑問可提出。 import urllib import urllib

Python爬蟲獲取最近七天天氣預報資訊

主要用到python的requests庫和BeatifulSoup庫,程式碼如下: #encoding:utf-8 import requests import psycopg2 import datetime import re from bs4 import Beaut

python 爬蟲 獲取西刺網免費高匿代理ip

import chardet import requests from scrapy.selector import Selector import random from telnetlib import Telnet ip_list = [] def g

Python爬蟲-破解JS加密的Cookie

原文出處 jhao104 現在很多網站為了防範爬蟲,做了很多反扒處理,同樣對於開發者來講,上有政策,下有對策,於是今天來個破解反扒處理,僅供學習參考。 前言 在GitHub上維護了一個代理池的專案,代理來源是抓取一些免費的代理髮佈網站。上午有個小哥告訴我說有個代理抓取介面不

Python爬蟲獲取貼吧中的郵箱

最近公司正在談的專案需要用到爬蟲,和經理交流後,經理建議我用Python實現。昨天看了會兒Python基本語法後,在電腦上安裝了Python 3.7以及編譯器PyCharm。今天參考了網上的程式碼後,根據網上的程式碼小做修改,實現了之前用Java寫的爬取貼吧帖子中的郵箱。以下

Python爬蟲獲取招聘網站職位資訊

作為一名Pythoner,相信大家對Python的就業前景或多或少會有一些關注。索性我們就寫一個爬蟲去獲取一些我們需要的資訊,今天我們要爬取的是前程無憂!說幹就幹!進入到前程無憂的官網,輸入關鍵字“Python”,我們會得到下面的頁面 我們可以看到這裡羅列了"職位名"、"公司名"、"工作地

Python爬蟲 - 獲取美團美食資料

這兩天接觸了一下python爬蟲,根據網上的一些部落格寫了下面的程式碼來抓取美團網上的美食資料,記錄一下。 #from bs4 import BeautifulSoup #解析html或xml檔案的庫 import urllib.request import csv import re imp

python 爬蟲獲取網頁 html 內容以及下載附件的方法

python 爬蟲獲取網頁 html 內容以及下載附件的方法 python 爬蟲獲取網頁 html 內容的兩種方法: 獲取靜態網頁和使用瀏覽器獲取動態內容。 from urllib.request import urlopen from urllib import request

python爬蟲獲取圖片

import re import os import urllib #根據給定的網址來獲取網頁詳細資訊,得到的html就是網頁的原始碼 def getHtml(url): page = urllib.request.urlopen(url) html = page.read()

Python爬蟲獲取文章的標題及你的部落格的閱讀量,評論量。所有資料寫入本地記事本。最後輸出你的總閱讀量!

Python爬蟲獲取文章的標題及你的部落格的閱讀量,評論量。所有資料寫入本地記事本。最後輸出你的總閱讀量!還可以進行篩選輸出!比如閱讀量大於1000,之類的! 完整程式碼在最後。依據閱讀數量進行降序輸出! 還有程式碼截圖(適用於不知道為啥出現錯誤的朋友) 執行結果截圖,寫入後的記事本