豆瓣-代理ip登陸-css解決class空格

阿新 • • 發佈：2019-03-11

from 代理ip like ice 可能沒有權限 x11 http 列表

首先附上源碼：

from bs4 import BeautifulSoup
from selenium import webdriver
import time
from ArticleSpider.proxy_pool import proxy
import csv


#代理Ip
iplist=proxy().get_ip_list()
proxies=proxy().get_random_ip(iplist)

#賬號密碼
user={
    ‘word‘:‘賬號‘,
    ‘password‘:‘密碼‘
}

# 進入瀏覽器設置,選擇
options = webdriver.ChromeOptions()
#添加代理ip，獲得字典中的值
options.add_argument(str(proxies[‘https‘]))
#更換請求頭
brow = webdriver.Chrome(‘D:\Python\chromedriver.exe‘, chrome_options=options)

#輸入用戶信息，登錄！
url = ‘https://movie.douban.com/subject/26752088/comments?sort=new_score&status=P‘
brow.get(url)
brow.find_element_by_class_name(‘nav-login‘).click()
time.sleep(1)
brow.get(brow.current_url)
brow.find_element_by_class_name(‘account-tab-account‘).click()
brow.find_element_by_class_name(‘account-form-input‘).send_keys(user[‘word‘])
brow.find_element_by_id(‘password‘).send_keys(user[‘password‘])
#這裏使用css，因為多個class值，然後空格那裏改為.，並且前面也加.
brow.find_element_by_css_selector(‘.btn.btn-account.btn-active‘).click()
brow.maximize_window()#窗口最大化
time.sleep(2)


brow.get(url)
#打開文件，準備追加內容
file=open(‘yaoshen.csv‘,‘a‘,encoding=‘utf-8‘,newline=‘‘)
writer=csv.writer(file)

for j in range(30):
    #獲得當前url
    brow.get(brow.current_url)
    #切換窗口失敗！
    # brow.switch_to.window(str(brow.current_window_handle))
    soup=BeautifulSoup(brow.page_source,‘lxml‘)
    # print(soup)
    #滑動到底部
    time.sleep(1)
    brow.execute_script(‘window.scrollTo(0,2500)‘)
    time.sleep(1)
    for i in soup.find_all(‘span‘,class_="short"):
        content = i.get_text()
        content = content.strip()  # 去掉空格
        content = content.replace(‘\n‘, ‘‘).replace(‘\t‘, ‘‘).replace(‘\xa0‘, ‘‘).replace(‘\r‘, ‘‘)  # 去掉轉義字符
        content = content.split(‘*‘)  # 轉換為列表
        print(content)
        writer.writerow(content)

    time.sleep(2)
    #點擊下一頁
    brow.find_element_by_class_name(‘next‘).click()
# 退出，清除瀏覽器緩存
brow.quit()

　　這個項目中用到了自己編寫的代理ip池代碼，將會在下面附上。

首先說一下遇到的錯誤，在選擇登錄豆瓣的時候，多次密碼錯誤，因為誤把其他網站密碼寫上去了，然後剛開始還找不到這個路徑，因為所屬的class有多個空格，需要使用css或者其他方法。

第一種方法：class值取其中之一，但是我覺得可能出錯，因為class值可能不唯一

第二種方法：使用 css.selector，每個class值前面加 .

此外，在debug過程中發現一直打印第一頁的評論，後來發現我只打開了一次瀏覽器，然後沒有更新url，所以解析得到的始終是第一頁的數據，所以需要使用brow.current_url來獲取點擊下一頁後的url，然後重新解析頁面

還有，每當我的瀏覽器運行到第十二頁左右就會提示我沒有權限，需要登陸，於是我就增加了一個登錄過程，雖然登陸後的頁面不是目標頁面，但是可以直接訪問目標頁面並且狀態依舊是已登錄狀態！

最後再附上代理ip池的代碼，這個項目中僅從代理ip池中取得一個代理ip，作用不大，但是可以看看，因為在selenium中使用代理ip的方法和requests的完全不一樣，不可以直接加到get方法中！

# IP地址取自國內髙匿代理IP網站：http://www.xicidaili.com/nn/

from bs4 import BeautifulSoup
import requests
import random
import urllib

class proxy(object):

    # 從代理ip網站獲取代理ip列表函數，並檢測可用性，返回ip列表
    def get_ip_list(self):
        url = ‘http://www.xicidaili.com/nn/‘
        headers = {
            ‘User-Agent‘: ‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36‘
        }
        rsp = requests.get(url, headers=headers)
        soup = BeautifulSoup(rsp.text, ‘lxml‘)
        #之前不使用lxml而使用html報錯，顯示最好使用lxml
        ips = soup.find_all(‘tr‘)
        # print(ips)
        ip_list = []
        #這個類只選擇第一頁的公開ip，暫時夠用了
        for i in range(1, len(ips)):
            ip_info = ips[i]
            tds = ip_info.find_all(‘td‘)
            ip_list.append(tds[1].text + ‘:‘ + tds[2].text)
        # 檢測ip可用性，移除不可用ip：（這裏其實總會出問題，移除的ip可能只是暫時不能用，剩下的ip使用一次後可能之後也未必能用）
        for ip in ip_list:
            try:
                proxy_host = "https://" + ip
                proxy_temp = {"https": proxy_host}
                #嘗試使用這個ip去打開百度的網站，如果能打開就默認為是可以使用的ip
                url_baidu=‘https://www.baidu.com‘
                urllib.urlopen(url_baidu, proxies=proxy_temp)
            except Exception as e:
                #如果無法打開百度網站，那麽就把這個ip從可用ip列表中移除
                ip_list.remove(ip)
                continue
        return ip_list

    # 從ip池中隨機獲取可用的ip列表
    def get_random_ip(self,ip_list):
        proxy_list = []
        for ip in ip_list:
            proxy_list.append(‘https://‘ + ip)
        #從可用ip列表中隨機選取一個可用ip
        proxy_ip = random.choice(proxy_list)
        proxies = {‘https‘: proxy_ip}
        return proxies

豆瓣-代理ip登陸-css解決class空格

from 代理ip like ice 可能沒有權限 x11 http 列表首先附上源碼： from bs4 import BeautifulSoup from selenium import webdriver import time from Articl

CSS解決無空格太長的字母,數字不會自己主動換行的問題

strong ack 換行 tle 主動發出字母文字 htm 事實上非常easy，代碼例如以下所看到的，註意 Style： <div class="detail_title" style="word-break: break-all;"><%=S

python使用IP代理示例及出錯解決方法

python 代理ip requests模塊一、代碼示例# -*- coding:utf-8 -*- import requests header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64

python 反爬總結（1）- 限制IP UA 的解決方法，修改headers和新增IP代理池

在學習python爬蟲的過程中，遇到各種反爬機制，個人總結了一下：對同樣的ip或User-Agent進行限制，對頻繁訪問的ip進行限制，設定登陸限制，設定驗證碼，設定Ajax載入頁面。目前小白我也就瞭解這麼多，其中驗證碼的反反爬還在學習當中，學無止境啊 &

css的class含有空格的處理

示例： <button class="style1 style2"> 查詢該button時，可以通過css selector來進行，如： element = selector(“b

CSS定義CLASS時中間有空格和沒空格的區別

.example .pp{ color: orange; } .example.pp2 { color: green; } .example .pp中間用空格隔開，表示後代選擇器，選擇的是.example內的.pp <div class="e

python爬蟲時，判斷IP代理是否有效的解決方法

1、不停的請求測試，可以發現網路IP在不斷更新 import requests import random # 該網站會返回你請求網站時的IP地址資訊 url = 'http://icanhazip.com' #首先我們在xicidaili.com中獲取一些ip代理資訊，放入列表中

requests爬蟲使用的IP代理未生效（解決方法）

在通過requests代理進行網路爬蟲，或者是scrapy進行網路爬蟲時，不可避免用到IP代理方式一個IP多次訪問導致IP地址被封禁，結果無法獲取資料的尷尬。但是有時候出現IP代理無法失效的情況：解決方法為：檢視請求的url地址使用的協議時http還是https，我們設定的代理ip的協議

解決mysql無法使用IP登陸

歡迎使用Markdown編輯器寫部落格最近在本機上裝了一個linux虛擬機器，然後準備部署專案，連線的是本機的資料庫，啟動的時候一直提示 java.sql.SQLException: Access denied for user ‘root’@’*’ (u

使用代理ip常見的幾個關鍵點及其解決方案

　　一個ip支撐不了整個爬蟲專案的運營，因此程式設計師常需要建立代理ip池或者與第三方代理ip軟體打交道。作為優質的代理ip服務商，太陽動態ip代理為您詳解使用代理ip常見的幾個關鍵點及其解決方案。　　IP檢驗模型　　再IP檢驗的當時,我門設計構思了1個實體模型用於明確哪些地方IP應當優先檢驗。實體模

解決Mysql中只能通過localhost登陸不能通過ip登陸的問題

1 登陸到MySql mysql -u root -p 輸入密碼xxx 登陸到MySql伺服器，執行下面的語句為所有ip賦予許可權。 grant all privileges on *.* to 'root'@'%' identified by 'x

代理IP,模擬登陸，request.get設定cookie

'uuid_tt_dd=9355752249176600242_20180327; __yadk_uid=6BHVQvWYnoNxl3eLA9VqAKJDzcTsHk7N; kd_user_id=fa963059-44ce-48f6-9b11-db28f9c2f8dc; Hm_ct_6bcd52f51e9b3

【scrapy ip代理池】如何解決ip被限制的問題

1、首先寫一個指令碼proxies.py 自動獲取代理ip # *-* coding:utf-8 *-* import requests from bs4 import BeautifulSoup import lxml from multiproces

去除li小圓點以及解決其空格問題

mar alpha .cn 怎麽辦 margin 字母 circle mage 查看　　不管是ul還是ol中的li前面始終有個小圓點，以前沒有發現問題，都是直接給ul增加list-style:none;屬性，可今天屢試不爽的屬性出現問題了，上圖通過兩張截圖可以清晰的看

在pfsense中設置多WAN後，網銀無法登陸的解決！

pfsense 多wan 網銀無法訪問在pfsense中設置多WAN後，網銀登陸一般會失效。出現這個問題原因大多是網銀的安全機制問題，銀行網站訪問不允許登陸用戶的IP地址短時間發生變化。解決辦法是指定網銀訪問的443端口流量走某一個固定的網關。下面以pfsense2.34的設置為例：設置好的規則如下：20

python設置代理IP來爬取拉勾網上的職位信息，

chrome https htm input post 進行 work port ota import requests import json import time position = input(‘輸入你要查詢的職位：‘) url = ‘https://www

【轉載】VMware下的Ubuntu用ifconfig不能顯示ip地址的解決方案

技術分享 linu p地址 ssg 們的網絡接口 ssh 註意 onf 轉載於 http://blog.163.com/wjn_mcu/blog/static/23801601620146161062704/ 背景在虛擬機下運行操作系統，尤其是Linux系統已經是非

scrapy抓取免費代理IP

代理爬蟲 python scrapy 1、創建項目scrapy startproject getProxy2、創建spider文件，抓取www.proxy360.cn www.xicidaili.com兩個代理網站內容cd項目的spiders模塊下執行scrapy genspider pro

php curl 代理ip訪問url

out 寫代碼 cti 服務 res method ons lds hosts 網上很多代理ip來訪問url，具體幹什麽我也不知道，寫代碼: $header //請求頭 $cookie //存儲cookie $arrip //ip地址的地址及端口 $params // p

能用HTML/CSS解決的問題就不要使用JS！

web前端 js為什麽說能使用html/css解決的問題就不要使用JS呢？兩個字，因為簡單。簡單就意味著更快的開發速度，更小的維護成本，同時往往具有更好的體驗，下面介紹幾個實例。1. 導航高亮導航高亮是一種很常見的問題，包括當前頁面的導航在菜單裏面高亮和hover時高亮。你可以用js控制，但是用一點CSS技巧

豆瓣-代理ip登陸-css解決class空格

相關推薦