Python selenium爬蟲抓取船舶網站資料（動態頁面）

阿新 • • 發佈：2019-02-13

很早之前就開始學習爬蟲了，一直想學習爬取動態頁面，正巧工作中需要用到一個船舶資訊的網站，每次都是手動查詢太麻煩了，昨天下午研究了一下午，總算搞透徹了，基本步驟如下：
1、啟動瀏覽器
2、開啟網頁
3、模擬輸入，模擬點選
4、稍等一會（很重要）
5、獲取網頁資料
6、清洗資料

程式碼分兩部分，一部分儲存為函式（Chrome_shipxy.py），另一部分作為程式呼叫函式，這樣方便擴充套件多程序使用。

from selenium.webdriver.common.keys import Keys
from selenium import webdriver
import time

def 
 func01(html): #拆分字串

    line='';html2=[];bj=0;
    for j in range(0,len(html)):

        if bj==0 and html[j:j+1]=='<':
            line=line+html[j:j+1];bj=1;continue

        if html[j:j+1]!='<':
            line=line+html[j:j+1];continue

        if bj==1 and html[j:j+1]=='<':
            html2.append(line);
            line='' 
;line=line+html[j:j+1];bj=1;
    html2.append(line);line='';
    return html2

def func02(html2): #篩選需要資訊

    sxzd=['si_mmsiFlag','si_shipType','si_shipStatus','si_length','si_beam','si_lat','si_lng','si_lastTime']; #國籍，型別，狀態，船長，船寬，緯度，經度，最後時間
    wb1=[];wb2=[];
    for i in sxzd:
        bj=0;
        for 
 j in html2:
            if i in j:
                wb1.append(j);bj=1;
        if bj==0:
            wb1.append('>無資訊');
    for j in wb1:
        for i in range(0,len(j)):
            if j[i:i+1]=='>':
                wb2.append(j[i+1:len(j)])
    return wb2

def func03(ship_name,wait_time): #主函式

    obj = webdriver.Chrome()
    obj.set_page_load_timeout(10)

    try:

        obj.get('http://www.shipxy.com/')
        obj.set_page_load_timeout(20)

        obj.find_element_by_id('txtKey').clear()   #用於清除輸入框的內容,相當於clear()
        obj.find_element_by_id('txtKey').send_keys(ship_name)   #在輸入框內輸入Hello
        obj.find_element_by_id('butnQuery').send_keys(Keys.ENTER) #通過定位按鈕，通過enter（回車）代替click
        time.sleep(wait_time) #讓子彈飛一會兒（很重要）

        html = obj.page_source
        time.sleep(2)

        html2=func01(html)
        html3=func02(html2)
        html3.insert(0,ship_name)

    except Exception as e:
        html3=['未獲取到資訊','無資訊'];#print(e);
    finally:
        obj.close()
        obj.quit()
        return html3

import Chrome_shipxy

if __name__=='__main__':

    ship_name=['SHINANO MARU','SEROJA LIMA','寶鑫通','桂翔1','嘉遠3','建功308','順恩','西馬11','鑫源盛','興達888','興寧20','豫信貨12262','忠泰'];
    for j in ship_name:
        html3=Chrome_shipxy.func03(j,5)
        if '無資訊' in html3[1]:
            for i in range(6,31,2):
                html3=Chrome_shipxy.func03(j,i)
                if '無資訊' not in html3[1]:
                    break
        print(html3)

Python selenium爬蟲抓取船舶網站資料（動態頁面）

很早之前就開始學習爬蟲了，一直想學習爬取動態頁面，正巧工作中需要用到一個船舶資訊的網站，每次都是手動查詢太麻煩了，昨天下午研究了一下午，總算搞透徹了，基本步驟如下： 1、啟動瀏覽器 2、開啟網頁 3、模擬輸入，模擬點選 4、稍等一會（很重要） 5、獲取

用python爬蟲抓取視訊網站所有電影

執行環境 IDE丨pycharm 版本丨Python3.6 系統丨Windows ·實現目的與思路· 目的：實現對騰訊視訊目標url的解析與下載，由於第三方vip解析，只提供線上觀看，隱藏想實現對目標視訊的下載思路：首先拿到想要看的騰訊電影url,通過第三方vip視訊解析網站進

python爬蟲實戰（四）：selenium爬蟲抓取阿里巴巴採購批發商品

一、前言二、學習資料（感謝分享）三、開始爬取 1、先分析目標網址，為什麼選擇selenium 在搜尋中輸入女裝，用F12檢視原始碼，看看網頁顯示的內容是不是Ajax。點選Network，選擇下面的XHR，按F5重新整理頁面，下

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

簡述以下的程式碼是使用python實現的網路爬蟲，抓取動態網頁http://hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。本人對於Python學習建立了一個小小的學習圈子，為各位提供了

使用selenium爬蟲抓取資料

寫在前面本來這篇文章該幾個月前寫的，後來忙著忙著就給忘記了。ps:事多有時候反倒會耽誤事。幾個月前，記得群裡一朋友說想用selenium去爬資料，關於爬資料，一般是模擬訪問某些固定網站，將自己關注的資訊進行爬取，然後再將爬出的資料進行處理。他的需求是將文章直接匯入到富文字編輯器去釋出，其實這也是爬蟲中的一

python3.X爬蟲針對拉鉤，直聘，大街等招聘網站的簡歷爬蟲抓取心得總結一（ide pycharm執行）

在面對登陸問題的網站例如向拉鉤，大街網，直聘等需要進行模擬登陸的問題，這裡我才用的selenium+chrome的方式，進行獲取cookies 然後轉化成requests中的cookie 再進行具體的內容的抓取這裡裡面遇到問題如下：

python網路爬蟲--抓取股票資訊到Mysql

1.建表mysql -u root -p 123456create database test default character set utf8;create table stocks --a股( code varchar(10) comment '程式碼', nam

使用新浪微博官方API抓取微博資料（Python版）

一、安裝環境二、一個簡單的例子 # coding=utf-8 from weibo import APIClient import webbrowser # python內建的包 APP_

python 網路爬蟲抓取圖片

#-*- encoding: utf-8 -*- ''' Created on 2014-4-24 @author: Leon Wong ''' import urllib2 import urllib import re import time import os im

火狐瀏覽器匯入Burpsuite證書之後仍然無法抓取HTTPS網站資料包的問題

在新電腦中使用burpsuite+火狐進行抓包，已經匯入burpsuite的證書，但是發現涉及HTTPS協議的網站時，仍然無法抓包，並且沒有提供“新增例外”的按鈕。可能的原因是在匯入證書的時候，沒有勾選“信任由此證書頒發機構來標識網站”，如下圖所示：在不重新匯入證書

Python專案實戰:抓取大型網站JS特效模板

前言今天為大家結果一個利用Python爬蟲程式來獲取懶人相簿的JS特效模板,利用到了gevent,有了gevent，協程的使用

如何用爬蟲抓取招聘網站的職位並分析

最近有不少程式設計師又開始找工作了，為了瞭解目前技術類各職位的數量、薪資、招聘公司、崗位職責及要求，我爬取了拉勾網北上廣深4個城市的招聘資料，共3w條。職位包括：人工智慧（AI）、大資料、資料分析、後端（Java、C|C++、PHP、Python）、前端、Android、iOS、嵌入式和測試。下面我將分兩部分

用Scrapy抓取豆瓣小組資料（一）

最近在coursera.org（線上學習平臺）上學SNA（Social Network Analysis，社交網路分析）。有興趣的同學可以去看一眼：https://class.coursera.org/sna-002/，課程講的很有意思，等回頭我上完全部課程打算再寫下

Fidder詳解-抓取HTTPS清求（Web/App）抓包分析（靠譜篇）

可能 clas 請求設置代理 cer port 關閉 lan str 為什麽要學Fidder抓包？學習接口，必須要學http協議，不要求您對協議的掌握有多深。只是希望你能夠了解什麽是協議、協議的報文、狀態碼等等！本文通過抓包工具Fidder帶你進入接口的大門。我們通過

用pyquery 初步改寫崔慶才的抓取貓眼電影排行（正在更新）特意置頂，提醒自己更新

items parse rac info sco ber windows time ont 目前正在學Python爬蟲，正在讀崔慶才的《Python3網絡爬蟲開發實戰》，之前學習正則表達式，但是由於太難，最後放棄了（學渣的眼淚。。。。），在這本書上的抓取貓眼電影排行上，

leetcode的python實現刷題筆記70:爬樓梯（動態規劃）

假設你正在爬樓梯。需要 n 階你才能到達樓頂。每次你可以爬 1 或 2 個臺階。你有多少種不同的方法可以爬到樓頂呢？注意：給定 n 是一個正整數。示例 1：輸入： 2 輸出： 2 解釋：有兩種方法可以爬到樓頂。 1. 1 階 + 1

Python爬蟲抓取純靜態網站及其資源

遇到的需求前段時間需要快速做個靜態展示頁面，要求是響應式和較美觀。由於時間較短，自己動手寫的話也有點麻煩，所以就打算上網找現成的。中途找到了幾個頁面發現不錯，然後就開始思考怎麼把頁面給下載下來。由於之前還沒有了解過爬蟲，自然也就沒有想到可以用爬蟲來抓取網頁內容。所以我採取的辦法

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

簡單介紹一下爬蟲原理。並給出 51job網站完整的爬蟲方案。爬蟲基礎知識資料來源網路爬蟲的資料一般都來自伺服器的響應結果，通常有html和json資料等，這兩種資料也是網路爬蟲的主要資料來源。其中html資料是網頁的原始碼，通過瀏覽器-檢視原始碼可

Python爬蟲練習之一：抓取美團資料

{'poiId': 1653468, 'frontImg': 'http://p0.meituan.net/600.600/mogu/7f102559bd246c78d7f2d2ab066a12d0139144.jpg', 'title': '火宴山（大悅城店）', 'avgScore': 4.9, 'all

python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式，並將爬取到的資料（排名、電影名和電影海報網址）存入MySQL資料庫中。下面是完整程式碼：Ps：在執行程式前，先在MySQL中建立一個數據庫"pachong"。import pymysql import requests imp

Python selenium爬蟲抓取船舶網站資料（動態頁面）

相關推薦