python爬取知乎回答

阿新 • • 發佈：2019-02-20

1. 安裝庫

htmlparser用來解析html。

Beautiful Soup 是一個可以從 HTML 或 XML 檔案中提取資料的 Python 庫。

pip install beautifulsoup4

Selenium 是瀏覽器自動化測試框架，使用它來模擬使用者操作。

利用 pip 安裝 selenium

pip install -U selenium

2. 模擬使用者進行滾動和點選操作

使用JS控制滾動條的位置：

window.scrollTo(x,y);

豎向滾動條置底

 window.scrollTo(0,document.body 
.scrollHeight)
 time.sleep(2)

向下滑動後延遲兩毫秒等待頁面載入。

在頁面上通過審查，找到檢視更多回答的html程式碼

<button class="Button QuestionMainAction"
type="button">檢視更多回答</button>

通過

driver.find_element_by_css_selector('button.QuestionMainAction').click()

來選中並點選這個按鈕。

3. html檔案結構化

將html檔案結構化並儲存，原頁面的html解析並存儲下來

通過prettify()將html結構化，之後儲存在本地的txt檔案中。

4. 儲存並下載圖片

注意我們的目的，就是爬取回答下的圖片，其他的都不需要。

還是右鍵審查，可以發現每張圖片上面都有的node，沒錯，這裡面存有圖片的高清URL和縮圖URL。

每個元素都被html entity編碼了，所以我們要將其解碼如下。

html.parser.unescape

之後就可以將圖片URL儲存下來。

最後下載圖片。

urllib.request.urlretrieve

5. 結果展示

這裡寫圖片描述

6. 程式碼


from selenium import 
 webdriver
import time

import urllib.request

from bs4 import BeautifulSoup

import html.parser

def main():
    driver = webdriver.Chrome()  # 開啟瀏覽器
    driver.get("https://www.zhihu.com/question/40273344") # 開啟想要爬取的知乎頁面 

    # 模擬使用者操作
    def execute_times(times):

        for i in range(times):
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(2)
            try:
                driver.find_element_by_css_selector('button.QuestionMainAction').click()
                print("page" + str(i))
                time.sleep(1)
            except:
                break

    execute_times(5)

    result_raw = driver.page_source  # 這是原網頁 HTML 資訊
    result_soup = BeautifulSoup(result_raw, 'html.parser')# 然後將其解析
    result_bf = result_soup.prettify()  # 結構化原 HTML 檔案
    with open("./output/rawfile/raw_result.txt", 'w',encoding="utf-8") as girls:  # 儲存路徑裡的資料夾需要事先建立。
        girls.write(result_bf)
    girls.close()
    print("爬取回答頁面成功!!!")


    with open("./output/rawfile/noscript_meta.txt", 'wb') as noscript_meta:
        noscript_nodes = result_soup.find_all('noscript')  # 找到所有<noscript>node
        noscript_inner_all = ""
        for noscript in noscript_nodes:
            noscript_inner = noscript.get_text()  # 獲取<noscript>node內部內容
            noscript_inner_all += noscript_inner + "\n"

        noscript_all = html.parser.unescape(noscript_inner_all).encode('utf-8')  # 將內部內容轉碼並存儲
        noscript_meta.write(noscript_all)

    noscript_meta.close()
    print("爬取noscript標籤成功!!!")

    img_soup = BeautifulSoup(noscript_all, 'html.parser')
    img_nodes = img_soup.find_all('img')
    with open("./output/rawfile/img_meta.txt", 'w') as img_meta:
        count = 0
        for img in img_nodes:
            if img.get('src') is not None:
                img_url = img.get('src')

                line = str(count) + "\t" + img_url + "\n"
                img_meta.write(line)
                urllib.request.urlretrieve(img_url, "./output/image/" + str(count) + ".jpg")  # 一個一個下載圖片
                count += 1

    img_meta.close()
    print("圖片下載成功")
if __name__ == '__main__':
    main()

python爬取知乎回答

1. 安裝庫 htmlparser用來解析html。 Beautiful Soup 是一個可以從 HTML 或 XML 檔案中提取資料的 Python 庫。 pip install beautifulsoup4 Selenium 是瀏覽器自動化測

python爬取知乎專欄使用者評論資訊

工具：python3，pycharm，火狐瀏覽器模組：json，requests，time 登入知乎，進入專欄。進入後隨便選擇一個專欄，我們選擇一個粉絲比較多的。點選進去。其實，我們可以爬取這個專欄的所有文章，開啟開發者工具F12，點選重新整理找

用python爬取知乎中的圖片

首先，我們檢視一下知乎的robots協議。 User-agent: * Disallow: / 知乎是不允許爬取其根目錄的。但是，我們只是用於實驗，而且訪問頻率和正常訪問差距不大，所以可以爬取。先明確目的：對手動輸入的網址進行解析把爬取到的圖片儲存到指定目

python爬取知乎專欄文章標題及URL

# -*- coding:utf-8 -*- from selenium import webdriver import time # 執行程式要安裝selenium模組，並下載Chrome瀏覽器驅動

Python爬取知乎日報，推送到kindle

最近刷知乎上癮，剛好手頭有一臺kindle，搞一波事情。 1.分析頁面知乎日報的網頁端結果比較清晰，每篇的文章的連結都在 link-button 這個 a 標籤中。用requests + BeautifulSoup 庫可以比較輕鬆的解析。 i

python爬取知乎話題的精華問題下的使用者資訊

今天試著用自己的爬蟲程式碼爬取了知乎【同性戀】話題下的所有精華問題的使用者位置資訊程式碼： __author__ = 'yang' # -*- coding: utf-8 -*- import configparser import requests

Python爬取知乎“神回覆”，笑得根本停不下來（附程式碼）

def get_answers_by_page(topic_id, page_no): offset = page_no * 10 url = <topic_url> # topic_url是這個話題對應的url headers = { "User-Agent":

爬取知乎Python中文社區信息

urlencode RR amp AD pos LV off In encoding 爬取知乎Python中文社區信息，https://zhuanlan.zhihu.com/zimei 1 import requests 2 from urllib.parse

python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片

上文介紹了爬取知乎問題資訊的整個過程,這裡介紹下爬取問題下所有答案的內容和圖片,大致過程相同,部分核心程式碼不同. 爬取一個問題的所有內容流程大致如下: 一個問題url 請求url,獲取問題下的答案個數(我不需要,因為之前獲取問題資訊的時候儲存了問題的回答個數) 通過答案的介面去獲取答案(如果一次獲取5

教程+資源,python scrapy實戰爬取知乎最性感妹子的爆照合集(12G)!

一.出發點：之前在知乎看到一位大牛（二胖）寫的一篇文章：python爬取知乎最受歡迎的妹子（大概題目是這個，具體記不清了），但是這位二胖哥沒有給出原始碼，而我也沒用過python,正好順便學一學,所以我決定自己動手搞一搞. 爬取已經完成,文末有 python的原始碼和妹子圖片的百度雲地址二.準備：

用 python 抓取知乎指定回答下的視訊

前言現在知乎允許上傳視訊，奈何不能下載視訊，好氣哦，無奈之下研究一下了，然後擼了程式碼，方便下載視訊儲存。接下來以貓為什麼一點也不怕蛇？回答為例，分享一下整個下載過程。除錯一下開啟 F12, 找到游標，如下圖：然後將游標移動到視訊上。如下圖：咦這是什麼？視野中出現了一條神祕

python3爬取知乎某話題下的若干個問題及其回答

思路：通過selenium的webdriver實現頁面的點選、下來等操作。頁面完全載入後通beautifulsoup來查詢相應的標籤。將資料放到列表中，然後通過xlwt建立excel，並把資料存進去。缺點：容易遇到效能問題。可能一個話題有很多的回覆，而對於往excel中插

用於爬取知乎某個話題下的精華問題中所有回答的爬蟲

思路我的整個演算法的思路還是很簡單的，文字版步驟如下：1、通過話題廣場進入某個話題的頁面，避免了登陸註冊頁面的驗證，查詢到對應要爬取的話題，從 url 中得到話題id2、該頁面的所有資源採用了延遲載入，如果採用模擬瀏覽器進行載入的話還是很麻煩，經研究後發現知乎有前後端資料傳輸的api，所以獲取資料方面