爬蟲06-sina部落格

阿新 • • 發佈：2018-11-01

"""
__title__ = ''
__author__ = 'Thompson'
__mtime__ = '2018/7/25'
# code is far away from bugs with the god animal protecting
    I love animals. They taste delicious.
              ┏┓      ┏┓
            ┏┛┻━━━┛┻┓
            ┃      ☃      ┃
            ┃  ┳┛  ┗┳  ┃
            ┃      ┻      ┃
            ┗━┓      ┏━┛
                ┃      ┗━━━┓
                ┃  神獸保佑    ┣┓
                ┃　永無BUG！   ┏┛
                ┗┓┓┏━┳┓┏┛
                  ┃┫┫  ┃┫┫
                  ┗┻┛  ┗┻┛
"""
from selenium import webdriver
import random
import time
from bs4 import BeautifulSoup

loginname = ' 
[email protected]'
password = 'qikuedu9527'

def login():
    #opt = webdriver.ChromeOptions()  # 建立chrome引數物件
    #opt.set_headless()  # 把chrome設定成無頭模式，不論windows還是linux都可以，自動適配對應引數
    #driver = webdriver.Chrome(options=opt)  # 不制定options選項則是普通有頭瀏覽器
    driver = webdriver.Chrome()
    try:
        driver.set_window_size(1124, 850)  # 防止得到的WebElement的狀態is_displayed為False，即不可見
        #driver.maximize_window()
        print('開始登入微博...')
        driver.get("http://www.weibo.com/login.php")
        #自動點選並輸入使用者名稱
        time.sleep(2)
        print('輸入使用者名稱...')
        driver.find_element_by_id('loginname').clear()
        driver.find_element_by_id('loginname').send_keys(loginname)
        #自動點選並輸入登入的密碼
        time.sleep(2)
        print('輸入密碼...')
        driver.find_element_by_name('password').clear()
        driver.find_element_by_name('password').send_keys(password)
        #點選登入按鈕
        time.sleep(3)
        print('登入...')
        driver.find_element_by_xpath('//div[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
        cookies = driver.get_cookies()
        return driver
    except Exception as e:
            print("登入失敗!",e)
            return None


def weiboSpider(driver,url):
    #driver = webdriver.Chrome()
    try:
        print('進入指定微博...')
        driver.set_window_size(1124, 850)  # 防止得到的WebElement的狀態is_displayed為False，即不可見
        driver.get(url)
        # 返回滾動高度
        last_height = driver.execute_script("return document.body.scrollHeight")
        while True:
            print('頁面載入中...')
            # 滑動一次
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            # 等待載入
            time.sleep(random.random()*10)
            # 計算新的滾動高度並與上一個滾動高度進行比較
            new_height = driver.execute_script("return document.body.scrollHeight")
            if new_height == last_height:
                break
            last_height = new_height
    except Exception as e:
            print("載入失敗!",e)
            weiboSpider(driver, url)
    print('頁面結束...')
    html = driver.page_source
    #print(html)
    # 微博資訊解析
    print('提取資料...')
    soup = BeautifulSoup(html,'lxml')
    ls = soup.select('div.WB_detail')
    print(len(ls))
    for item in ls:
        name = item.select('div.WB_info > a')[0].get_text()
        print(name)
        pub_date = item.select('div.WB_from.S_txt2 > a')[0].get_text()
        print(pub_date)
        content = item.select('div.WB_text.W_f14')
        if len(content)>0:
            content = content[0].get_text().strip()
        else:
            content = '無'
        print(content)


# https://weibo.com/p/1003061826792401
if __name__ == '__main__':
    id = input("請輸入微博id：")
    # nums = int(input("請輸入爬取的頁數："))
    url = "https://weibo.com/"+id +"?is_all=1"
    driver = login()
    print(url)
    weiboSpider(driver, url)

爬蟲06-sina部落格

""" __title__ = '' __author__ = 'Thompson' __mtime__ = '2018/7/25' # code is far away from bugs with the god animal protecting I love animals. The

python爬蟲設計刷部落格訪問量（刷訪問量，贊，爬取圖片）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Python爬蟲實戰--CSDN部落格爬蟲（附贈瀏覽量小工具）

前言：哈哈，繼續高興一下，通過自己的小手段，讓部落格訪問量過萬啦~怎麼做到的呢？大家想一想我們近來所學的爬蟲知識，養兵千日用兵一時，在前面的學習，我們已經可以很輕鬆的爬去一些中小型和大型網站了，現在我們一起來思考一下，我們該怎麼去爬蟲CSDN網站，並順便提高一下我們部落格的瀏覽量呢？問

Python爬蟲爬取部落格園作業

要求第一部分：請分析作業頁面，爬取已提交作業資訊，並生成已提交作業名單，儲存為英文逗號分隔的csv檔案。檔名為：hwlist.csv 。檔案內容範例如下形式：學號,姓名,作業標題,作業提交時間,作業URL 20194010101,張三,羊車門作業,2018-1

(最新)使用爬蟲刷CSDN部落格訪問量——親測有效

說明：該篇部落格是博主一字一碼編寫的，實屬不易，請尊重原創，謝謝大家！ 1.概述前言：前兩天剛寫了第一篇部落格https://blog.csdn.net/qq_41782425/article/details/84934224 發現閱讀量很少，博主很生氣，當時就想到使用爬蟲來

JAVA爬蟲挖取CSDN部落格文章(續)

前言之前寫過一篇用jsoup爬取csdn部落格的文章JAVA爬蟲挖取CSDN部落格文章，當時博主還在上一家公司實習，由於公司辦公網路需要代理才能訪問外網，那一篇的程式碼邏輯與代理密切相關，可能有些不熟悉jsoup怎麼使用的朋友看了會感覺越看越糊塗，且當時以為爬取所有文章需要用到分

python 爬蟲爬去自己部落格的訪問量

廢話不多說，我也是剛剛學習小白一個，但是經過我的測試確實是可以用的，只不過大家要把時間設定的要長一點先上程式碼，使用py3 程式碼的相關解析可以看我的其他部落格，裡面有詳細的介紹 __author__ = 'MrChen' &

Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十八)-Python3爬蟲實踐

使用部落格的第一天 2018-09-06

本部落格僅作為本人學習使用，內容可能會有錯誤，不建議借鑑為了保證學過的東西不忘記，特意開通了該部落格，然後內容都是自己的理解或者是借鑑其他人的想法，可能會有錯誤，不建議借鑑。快捷鍵加粗 Ctrl + B 斜體 Ctrl + I 引用 Ctrl +

Python爬蟲，看看我最近部落格都寫了啥，帶你製作高逼格的資料聚合雲圖

今天一時興起，想用python爬爬自己的部落格，通過資料聚合，製作高逼格的雲圖(對詞彙出現頻率視覺上的展示)，看看最近我到底寫了啥文章。 1.1 爬取文章的標題的聚合 1.2 爬取文章的摘要的聚合 1.3 爬取文章的標題+摘要的聚合我

“希希敬敬對”團隊--‘百度貼吧小爬蟲’Alpha版本展示部落格

“希希敬敬對”團隊成員簡介　　　　龍江騰（隊長）團隊PM 精通C語言，熟悉微控制器開發，嵌入式軟體開發。熟悉軟體專案的一般開發流程，有良好的程式設計風格，程式碼模組化思想。電子基礎紮實，能看懂原理圖，熟悉數位電路和類比電路知識。良好的團隊精神，性格開朗，善於溝通，有強烈的責任感，工作積極主動。

python3爬蟲例子02（獲取個人部落格園的文章資訊）

#!/usr/bin/env python# -*- coding:UTF-8 -*-import requestsfrom bs4 import BeautifulSoupres=requests.get("https://www.cnblogs.com/NiceTime/")# c=res.content

[雪峰磁針石部落格]2018最佳人工智慧資料採集(爬蟲)工具書下載

Python網路資料採集 Python網路資料採集 - 2016.pdf 本書採用簡潔強大的Python語言，介紹了網路資料採集，併為採集新式網路中的各種資料型別提供了全面的指導。第 1部分重點介紹網路資料採集的基本原理：如何用Python從網路伺服器請求資訊，如何對伺服器的響應

C語言部落格作業06--結構體&檔案

1.本章學習總結（2分） 1.1思維導圖請以思維導圖總結本週的學習內容。如下圖所示： 1.2.本章學習體會描述本週學習感受，也可以在這裡提出你不理解地方、對教師教學建議等等。 2.大作業（8分）本次作業要求對小學四則運算程式功能擴充套件。擴充套件功能：小學生使用者登入進系統做題。結束答題

Python爬蟲獲取文章的標題及你的部落格的閱讀量，評論量。所有資料寫入本地記事本。最後輸出你的總閱讀量！

Python爬蟲獲取文章的標題及你的部落格的閱讀量，評論量。所有資料寫入本地記事本。最後輸出你的總閱讀量！還可以進行篩選輸出！比如閱讀量大於1000，之類的！完整程式碼在最後。依據閱讀數量進行降序輸出！還有程式碼截圖（適用於不知道為啥出現錯誤的朋友）執行結果截圖，寫入後的記事本

C語言部落格作業06

1.本章思考總結 1.1思維導圖 1.2本章學習體會及程式碼量 1.2.1學習體會這一個多星期將近兩個星期的時間一直在學習指標，其實就跟老師說的一樣，從函式開始題會變得難一些，然後需要我們思考的越多，然後是陣列，最後就是指標。我認為指標的難度很大，我也不是很清楚具體的操作，只能硬著頭皮，看翁

C語言部落格作業06——結構體&檔案

1.本章學習總結 1.1思維導圖 1.2本章學習體會這兩週，我們學習了結構體和檔案，相對於檔案來說，我認為結構體是簡單的，可能也是因為學習檔案的時候老師上課的進度快，再加上這幾周都沒了課前預習的題集，也沒有課後在進行復習，也有一種得過且過的態度在那裡，對檔案就不是很瞭解。課前老師有讓我們看視訊預習

C部落格作業06--結構體&檔案

1.本章學習總結 1.1思維導圖 1.2本章學習體會學習了結構和檔案，又是懵懵的課了，我的天啊。結構還好，題目集一出就做了，不是很難，感覺掌握的還可以，不過這只是感覺而已，等到真正來寫大作業的時候又懵掉了。還有檔案，每次老師講完課都想著回去自己打一下程式碼感受一下，然而我現在還沒感受，這麼飄的自

Python爬蟲入門教程 17-100 部落格抓取資料

寫在前面寫了一段時間的部落格了，忽然間忘記了，其實部落格頻道的部落格也是可以抓取的，所以我幹了..... 其實這事情挺簡單的，開啟CSDN部落格首頁，他不是有個最新文章麼，這個裡面都是最新發布的文章。開啟F12抓取一下資料API，很容易就獲取到了他的介面提取連結長

c語言部落格作業06-檔案

1.本章總結 1.1思維導圖 1.2本章學習體會這周學了結構體和檔案，結構體作為一種資料的歸類方式，相比陣列或變數更具有整體全面性，例如一個數組只可以放一些按照元素順序存放的單元變數，並且我們用陣列接受格式中每個單元所對應的位置，即陣列中第i個元素對應的內容，這樣就顯得很麻煩，

爬蟲06-sina部落格

相關推薦