python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片

阿新 • • 發佈：2018-12-09

上文介紹了爬取知乎問題資訊的整個過程,這裡介紹下爬取問題下所有答案的內容和圖片,大致過程相同,部分核心程式碼不同.

爬取一個問題的所有內容流程大致如下:

一個問題url
請求url,獲取問題下的答案個數(我不需要,因為之前獲取問題資訊的時候儲存了問題的回答個數)
通過答案的介面去獲取答案(如果一次獲取5個答案,總計100個答案,需要計算的出訪問20次答案介面)[答案的介面地址如下圖所示]
答案介面返回的內容儲存到mysql
提取內容中的圖片地址,儲存到本地

爬取程式碼:

從mysql庫中查到question的id, 然後直接訪問答案介面去獲取資料.

answer_template="https://www.zhihu.com/api/v4/questions/%s/answers?include=data[*].is_normal,admin_closed_comment,reward_info,is_collapsed,annotation_action,annotation_detail,collapse_reason,is_sticky,collapsed_by,suggest_edit,comment_count,can_
comment,content,editable_content,voteup_count,reshipment_settings,comment_permission,created_time,updated_time,review_info,relevant_info,question,excerpt,relationship.is_authorized,is_author,voting,is_thanked,is_nothelp;data[*].mark_infos[*].url;dat
a[*].author.follower_count,badge[?(type=best_answerer)].topics&limit=5&offset=%s&sort_by=default"
    def check_login(self, response):
         #從mysql中讀取question的資訊,來進行爬取
         db = MySQLdb.connect("localhost", "root", "", "crawl", charset='utf8' )
         cursor = db.cursor()
         selectsql="select questionid,answer_num from  zhihu_question where id in ( 251,138,93,233,96,293,47,24,288,151,120,311,214,33) ;"
         try:
             cursor.execute(selectsql)    
             results = cursor.fetchall()
             for row in results:
                 questionid = row[0]
                 answer_num = row[1]
                 fornum = answer_num/5 #計算需要訪問答案介面的次數
                 print("questionid : "+ str(questionid)+"   answer_Num: "+str(answer_num))
                 for i in range(fornum+1):
                     answer_url = self.answer_template % (str(questionid), str(i*5))
                     yield scrapy.Request(answer_url,callback=self.parse_answer, headers=self.headers) 
         except Exception as e:
             print(e)
         db.close()

解析response

parser_anser解析接口裡的內容,這裡就比較方便了, 因為是json格式的程式碼如下:

def parse_answer(self,response):
        #測試時把返回結果寫到本地, 然後寫pythonmain方法測試,測試方法都在test_code目錄下
        #temfn= str(random.randint(0,100))
        #f = open("/var/www/html/scrapy/answer/"+temfn,'wb')
        #f.write(response.body)
        #f.write("------")
        #f.close() 
        res=json.loads(response.text)
        #print (res)
        data=res['data']
        # 一次返回多個(預設5個)答案, 需要遍歷
        for od in data:
            #print(od)
            item = AnswerItem()
            item['answer_id']=str(od['id'])  #  answer id
            item['question_id']=str(od['question']['id'])
            item['question_title']=od['question']['title']
            item['author_url_token']=od['author']['url_token']
            item['author_name']=od['author']['name']
            item['voteup_count']=str(od['voteup_count'])
            item['comment_count']=str(od["comment_count"])
            item['content']=od['content']
            yield item
            testh = etree.HTML(od['content'])
            itemimg = MyImageItem()
            itemimg['question_answer_id'] = str(od['question']['id'])+"/"+str(od['id'])
            itemimg['image_urls']=testh.xpath("//img/@data-original")
            yield itemimg

成果展示

爬取了4w+個答案和12G圖片(個人伺服器只有12G空間了~)

爬取收藏夾下的答案內容和圖片:

爬取收藏夾下的回答的流程和爬取問題下回答基本流程一樣,區別在於:

問題的start_urls為多個,收藏夾是一個一個爬取
問題頁面上找到了內容介面,返回json.方便. 收藏夾頁面沒有找到介面(我沒有找到),我是訪問每頁,然後解析的html.

構造每頁的起始地址:

解析html核心程式碼:

python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片

上文介紹了爬取知乎問題資訊的整個過程,這裡介紹下爬取問題下所有答案的內容和圖片,大致過程相同,部分核心程式碼不同. 爬取一個問題的所有內容流程大致如下: 一個問題url 請求url,獲取問題下的答案個數(我不需要,因為之前獲取問題資訊的時候儲存了問題的回答個數) 通過答案的介面去獲取答案(如果一次獲取5

使用scrapy爬取知乎問題和答案的相關欄位完整程式碼

目前程式健壯性有待提高。尤其是對question的各類異常處理還不夠。但是程式碼已經可用，附上程式碼執行後爬取到的資料。在爬取到101條quetion時已經爬取到2671條answer欄位了。。。。這差距好大。一方面是因為answer有知乎提供的API，更方便爬取，另一個方面

利用 Scrapy 爬取知乎用戶信息

oauth fault urn family add token post mod lock 　　思路：通過獲取知乎某個大V的關註列表和被關註列表，查看該大V和其關註用戶和被關註用戶的詳細信息，然後通過層層遞歸調用，實現獲取關註用戶和被關註用戶的關註列表和被關註列表，最終實

scrapy爬取知乎問答

登陸參考 https://github.com/zkqiang/Zhihu-Login # -*- coding: utf-8 -*- import scrapy import time import re import base64 import hmac import hashlib impor

超簡易Scrapy爬取知乎問題，標籤的爬蟲

上課的作業，備份一下，以免不時之需。知乎的問題的網頁都是 https://www.zhihu.com/question/ 帶8位神祕數字，我們只需要依次遍歷就解決問題啦，遇到404的情況就直接跳過。用scrapy框架快速開發。獲取知乎問題標題的程式碼 ti

python爬蟲——爬取知乎上自己關注的問題

與之前爬的網站圖片的不同的是，現在爬取的是要自己個人的關注的東西，所以需要做到模擬登入。模擬登入的原理是登入網站後，在瀏覽器上獲取儲存的cookies資訊，填充之後與請求一起傳送。如果前面的爬取圖片的會爬取了，對於這個解析字串的也沒有多大問題了。一直看著知乎上很多程式設計師把

Python爬蟲爬取知乎小結

最近學習了一點網路爬蟲，並實現了使用python來爬取知乎的一些功能，這裡做一個小的總結。網路爬蟲是指通過一定的規則自動的從網上抓取一些資訊的程式或指令碼。我們知道機器學習和資料探勘等都是從大量的資料出發，找到一些有價值有規律的東西，而爬蟲則可以幫助我們解決

通過Python爬蟲爬取知乎某個問題下的圖片

該爬蟲的完整程式碼我把它放到了GitHub上，因為目前是在一點點的增加功能階段，所以程式碼可能沒有完善好，但是正常執行時沒有問題的，歡迎拍磚，:) 該爬蟲主要是通過requests來實現的，該模組完全可以很好的代替urllib和urllib2，而且功能更強大，詳細可以看這

python requests 爬取知乎使用者資訊

今天嘗試了爬取知乎使用者資訊來練習爬蟲，學到了很多東西，在這裡總結一下心得我沒有使用爬蟲框架，就只用了requests模組，應為爬取的都是json資料，連BeautifulSoup都沒能用上爬取知乎使用者資訊，可以不用模擬登入也能獲取使用者資訊，只有一些設定了隱私才需要登入，

scrapy 爬取知乎登入認證部分（採用cookie登入）

scrapy 爬蟲，為非同步io框架;因此此處選擇，先用requests請求，儲存cookie檔案，然後scrapy爬取前，在入口處載入cookie。 * 登入，儲存cookie方法見前兩節，此處展示的是scrapy讀取cookie * 首先要明確，

教程+資源,python scrapy實戰爬取知乎最性感妹子的爆照合集(12G)!

一.出發點：之前在知乎看到一位大牛（二胖）寫的一篇文章：python爬取知乎最受歡迎的妹子（大概題目是這個，具體記不清了），但是這位二胖哥沒有給出原始碼，而我也沒用過python,正好順便學一學,所以我決定自己動手搞一搞. 爬取已經完成,文末有 python的原始碼和妹子圖片的百度雲地址二.準備：

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

爬取問題標題並儲存到資料庫：程式碼： # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co

爬取知乎熱榜標題和連接（python，requests，xpath）

app 分享圖片 dea -a mar margin 瀏覽器判斷 agen 用python爬取知乎的熱榜，獲取標題和鏈接。環境和方法：ubantu16.04、python3、requests、xpath 1.用瀏覽器打開知乎，並登錄 2.獲取cookie

python scrapy框架爬取知乎提問資訊

前文介紹了python的scrapy爬蟲框架和登入知乎的方法. 這裡介紹如何爬取知乎的問題資訊,並儲存到mysql資料庫中. 首先,看一下我要爬取哪些內容: 如下圖所示,我要爬取一個問題的6個資訊: 問題的id(question_id) 標題(title) 問題描述

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

false pat 模塊 text 文件的服務協議 .py execute 通過Scrapy模擬登陸知乎通過命令讓系統自動新建zhihu.py文件首先進入工程目錄下再進入虛擬環境通過genspider命令新建zhihu.py scrap

爬取知乎Python中文社區信息

urlencode RR amp AD pos LV off In encoding 爬取知乎Python中文社區信息，https://zhuanlan.zhihu.com/zimei 1 import requests 2 from urllib.parse

python爬取知乎專欄使用者評論資訊

工具：python3，pycharm，火狐瀏覽器模組：json，requests，time 登入知乎，進入專欄。進入後隨便選擇一個專欄，我們選擇一個粉絲比較多的。點選進去。其實，我們可以爬取這個專欄的所有文章，開啟開發者工具F12，點選重新整理找

用python爬取知乎中的圖片

首先，我們檢視一下知乎的robots協議。 User-agent: * Disallow: / 知乎是不允許爬取其根目錄的。但是，我們只是用於實驗，而且訪問頻率和正常訪問差距不大，所以可以爬取。先明確目的：對手動輸入的網址進行解析把爬取到的圖片儲存到指定目

python爬取知乎專欄文章標題及URL

# -*- coding:utf-8 -*- from selenium import webdriver import time # 執行程式要安裝selenium模組，並下載Chrome瀏覽器驅動

【Python資料分析】簡單爬蟲，爬取知乎神回覆

歡迎加入Python學習交流QQ群：535993938 禁止閒聊！名額有限！非喜勿進！看知乎的時候發現了一個 “如何正確地吐槽” 收藏夾，

python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片

爬取一個問題的所有內容流程大致如下:

爬取程式碼:

解析response

成果展示

爬取收藏夾下的答案內容和圖片:

構造每頁的起始地址:

解析html核心程式碼:

相關推薦