python 模擬滑鼠點選+bs4爬取多個網頁新聞（題目、媒體、日期、內容、url）

阿新 • • 發佈：2018-12-20

在搜狗新聞中，輸入關鍵詞（兩岸關係fa發展前景）後，出現6頁有關於這個關鍵詞的新聞。

現在目的就是爬取有關這個關鍵詞的網頁文章，如題目、媒體、日期、內容、url。如下圖：

載入包

import requests
from bs4 import BeautifulSoup      #bs4
import re
import pandas as pd
import urllib.request
from selenium import webdriver    #模擬滑鼠點選


#開啟Firefox瀏覽器，模擬器
driver = webdriver.Chrome()
driver = webdriver.Chrome("C:\Program Files (x86)\Google\Chrome\Application\chromedriver")


#第一頁的網址
url = "https://news.sogou.com/news?oq=%C1%BD%B0%B6%B9%D8%CF%B5&mode=1&manual=&stj0=8&query=%C1%BD%B0%B6%B9%D8%CF%B5%B7%A2%D5%B9%C7%B0%BE%B0&stj=8%3B0%3B0%3B0&stj2=0&stj1=0&hp=0&time=0&hp1=&sut=18021&lkt=0%2C0%2C0&ri=8&sst0=1541664088389&sort=1&page=1&w=01025001&dr=1"


driver.get(url)  # 模擬瀏覽器 解析網頁

r = requests.get(url)    #請求網頁 
soup =BeautifulSoup(r.text,"html.parser")     # bs4 解析網頁

獲取關鍵詞所得到有關文章的頁數，這裡是6頁。

a=str(soup.find_all(name = "div",attrs = {"class":"p"}))   #獲取div區域下的內容解析
url= re.findall(r'<a href="(.*?)" ',a)   #用re正則來獲取所有頁數url
page=len(url)+1   #獲取頁數的長度，由於正則匹配的時候，匹配到除本頁以外的所有頁數url不匹配，所以+1
page

首先建立空的列表，以便存放待會爬出來的資料。

content=[]    #建立空的列表，存放資料
title=[]    
url=[]
media=[]
time=[]

然後，開始爬取所需要的文字，因為知道了所有的頁數有6頁，所以，採取for迴圈來爬取。

由上圖可知，所需爬取的內容包括：內容（content）、題目（title）、網址（url）、媒體（media）、日期（time）。

經檢視這6頁的原始碼，發現，每篇文章所需爬取的資訊所在的區域是一樣的，所以，採用for迴圈的方法，一鍵爬取。

所爬取得網頁有6頁，如上圖所示：可知道，每一頁的網址，只有page改變了。因此可以for迴圈頁面網址。

for i in range(page):
    baseurl ="https://news.sogou.com/news?oq=%C1%BD%B0%B6%B9%D8%CF%B5&mode=1&manual=&stj0=8&query=%C1%BD%B0%B6%B9%D8%CF%B5%B7%A2%D5%B9%C7%B0%BE%B0&stj=8%3B0%3B0%3B0&stj2=0&stj1=0&hp=0&time=0&hp1=&sut=18021&lkt=0%2C0%2C0&ri=8&sst0=1541664088389&sort=1&page="+str(i)+"&w=01025001&dr=1"      #網址迴圈，6頁的網址
    #print(i,baseurl)
    r = requests.get(baseurl)
    soup =BeautifulSoup(r.text,"html.parser")    #bs4解析網址
    driver.get(baseurl)
    #print(i,baseurl)
    title1 = driver.find_elements_by_xpath("//h3[@class='vrTitle']/a")   #模擬滑鼠點選方法，獲取標題
    for a in title1:
        title.append(a.text)
        
    data=str(soup.find_all(name = "h3",attrs = {"class":"vrTitle"}))    #bs4方法，獲取每篇文章的url所在區域下的網頁解析
    url1= re.findall(r'<a href="(.*?)" ',data)    #正則匹配出每篇文章的url，data的格式要求是文字
    for a in url1:
        url.append(a)
        #print(a)
        
    for b in soup.find_all(name = "p",attrs = {"class":"news-from"}):   #bs4方法，獲取每篇文章的媒體型別和釋出日期
        temp = b.get_text().strip()
        media.append(temp.split("\xa0")[0])
        time.append(temp.split("\xa0")[1])
        #print(media)
        #print(time)
    
    content1 = driver.find_elements_by_xpath("//p[@class='news-txt']/span")    #模擬滑鼠點選方法，獲取每篇文章的內容
    for result in content1:
        content.append(result.text)
        #print(result.text)

最後、建立一個excel文件儲存文章的內容（content）、題目（title）、網址（url）、媒體（media）、日期（time）。

df = pd.DataFrame(columns=["content","title","url","media","time"])   #建立文件

df["content"]= content     #儲存每一列資料
df["title"]= title   
df["url"] = url
df['media'] = media
df["time"] = time

df.to_excel("爬蟲.xlsx",index=False)      #儲存excel

最後所爬取的結果如下圖所示：

python 模擬滑鼠點選+bs4爬取多個網頁新聞（題目、媒體、日期、內容、url）

在搜狗新聞中，輸入關鍵詞（兩岸關係fa發展前景）後，出現6頁有關於這個關鍵詞的新聞。現在目的就是爬取有關這個關鍵詞的網頁文章，如題目、媒體、日期、內容、url。如下圖：載入包 import requests from bs4 import Beautif

python模擬滑鼠點選

模擬滑鼠點選指定視窗中的指定button： import win32gui,win32api win = win32gui.FindWindow(None,DialogName) while win == 0: win = win32gui.FindWindo

python 模擬滑鼠點選自動下載檔案然後輸出檔名

import os import time import socket import mailto,subprocess downloadDir = "I:\\Gamedownloader\\" exeDir= "j:\\POPO\\" def download(xun

網路爬蟲之Scrapy實戰二：爬取多個網頁

前面介紹的scrapy爬蟲只能爬取單個網頁。如果我們想爬取多個網頁。比如網上的小說該如何如何操作呢。比如下面的這樣的結構。是小說的第一篇。可以點選返回目錄還是下一頁對應的網頁程式碼：我們再看進入後面章節的網頁，可以看到增加了上一頁對應的網頁程式碼通過

如何使用python來模擬滑鼠點選（將通過例項自動化模擬在360瀏覽器中自動搜尋"python"）

一、準備工作：安裝pywin32，後面開發需要pywin32的支援，否則無法完成與windows層面相關的操作。 pywin32的具體安裝及注意事項： 1、整體開發環境：　　基於windows7作業系統; 　　提前安裝python（因為篇幅問題，在此不詳細講解python

selenium直接用滑鼠點選(基於x,y座標)進行網頁爬取

食品生產許可獲證企業(SC)的爬取只有名字和編號這個網站是動態載入,並對請求ur進行了加密l 所以使用selenium 但是,selenium使用不知道為什麼一旦進行了對頁面資料的操作後,就無法請求到下一頁的資料了,所以只能一頁一頁的請求不停的從第一頁跳轉,不能

Python之Windows控制元件操作系列一：模擬滑鼠點選

模擬滑鼠點選指定視窗中的指定button： import win32gui,win32api win = win32gui.FindWindow(None,DialogName) while win == 0: win = win32gui.FindWindow(None,DialogName

c#使用API進行模擬滑鼠點選底層操作同樣簡單

using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using System.Drawing;using System.Text;using System.Window

python selenium滑鼠點選操作

1、python selenium滑鼠點選網頁空白（google瀏覽器50.0.2661.102 有效，經驗證firefox47.0.1該操作無效）： action = ActionChains (driver) action.move_by_offset(0,

python 讀取滑鼠點選座標

讀取滑鼠點選座標，包括點下去和擡起來的座標，注意不要在命令列點，可能會出問題 import pythoncom, pyHook def onMouseEvent(event): print

使用JS或jQuery模擬滑鼠點選a標籤事件程式碼

<a id="alink" href="abc.aspx" style="visibility: hidden;">下一步</a> $("#alink").click(); // 觸發了a標籤的點選事件，但是沒有觸發頁面跳轉 document.g

c# 模擬滑鼠點選

const int MOUSEEVENTF_MOVE = 0x0001; //移動滑鼠 const int MOUSEEVENTF_LEFTDOWN = 0x0002; //模擬滑鼠左鍵按下

autoit3模擬滑鼠點選之MouseClick

MouseClick:執行滑鼠點選操作 · MouseClick缺點之一：受電腦螢幕大小和解析度的影響，可使用WinMove固定視窗位置和大增加穩定性。 · MouseClick缺點之二：使用者滑鼠和鍵盤的移動和程式互相影響，可使用BlockIn

由於某種特殊需求，我需要在winform程式中模擬滑鼠點選事件，經過Google，終於找到了如下解決方案。

來自：http://outofmemory.cn/code-snippet/1708/how-winform-moni-shubiao-click-event using System; using System.Windows.Forms; using System.Ru

VB 模擬滑鼠點選 Mouse_Event

PrivateDeclareSub mouse_event Lib"user32" (ByVal dwFlags AsLong, ByVal dx AsLong, ByVal dy AsLong, ByVal cButtons AsLong, ByVal dwExtraInfo AsLong)Const MO

模擬滑鼠點選特效

css/* ：hover block 盒子，可以設定寬高 inline 文字，不能設定寬高 * */ ul{ margin: 0;/*去掉外邊距*/ list-style: none; padding: 0;/*去掉內邊距*/ } body{ display: flex;/*盒子垂直居中，彈

QT中模擬滑鼠點選事件

傳入座標，模擬滑鼠點選QWebView中網頁上的某一點 qDebug()<<"mouse clicked"; QPoint pos(403,34); QMouseEvent event0(QEvent::Mous

python爬蟲建立代理池，爬取5000個代理IP並進行驗證！

前面已經介紹了urllib+正則表示式和BeautifulSoup進行爬取資料的方法，今天再解決一個實際問題——構建自己的代理池。通過爬蟲在網上進行資料的獲取，由於效率很快，換言之，訪問的速度過快，導致一段時間內的流量過大，會使得對方的伺服器壓力過

爬取N個網頁，並將其記錄

color 完整 encode down utf 模塊 round 初始函數挖的坑，終於能填上了，先共享出來，大家有個對比參考。也幫忙找找錯誤。我也正在看，看看原來是哪裏出了問題。下面這段代碼已經實現了網頁的爬取：其效果為：下面給出詳細說明：上圖中出現的 _

爬取多個url頁面資料--手動實現

# -*- coding: utf-8 -*- import scrapy from qiubaiByPages.items import QiubaibypagesItem class QiubaiSpider(scrapy.Spider): name = 'qiubai'

python 模擬滑鼠點選+bs4爬取多個網頁新聞（題目、媒體、日期、內容、url）

相關推薦