python selenium 踩坑
阿新 • • 發佈:2018-08-14
from int find 微博 登陸 selector pytho row exce
想做做信息檢索課設,先寫個爬蟲爬爬微博。
看了一下午微博的api,晚上決定用chromnium。
先通過pip安裝selenium,官方文檔看一眼,
pip install selenium
然後需要安裝瀏覽器的driver,瀏覽器的調試模式一樣
通過Choco安裝,powershell一句話
choco install selenium-all-drivers
完畢。然後開始寫代碼
1 from selenium import webdriver 2 from time import sleep 3 4 5 browser = webdriver.Chrome()6 try: 7 print("open the browser...") 8 browser.get(r‘http://weibo.com‘) 9 print(browser.title) 10 except Exception: 11 print(‘browser open failed...‘) 12 13 sleep(5) 14 15 16 print("select href_links...") 17 href_li = browser.find_elements_by_css_selector(‘a‘) 18 print("total links:",len(href_li)) 19 print(‘not tag named <a>‘) 20 print(" for all the links") 21 for href_element in href_li: 22 print(href_element.text)
微博首頁有js的動態加載,本來打算遊客登陸的,結果發現直接訪問會卡在一個遊客的認證空白頁幾秒鐘,然後針對網頁的分析什麽都是空的, sleep(5) 之後才能找到想要的東西。
幹啥都得等一等,我決定下次用微博的api。。。
python selenium 踩坑