python: 知乎大規模（34k）使用者爬蟲

阿新 • • 發佈：2019-01-11

前些天學習python,完成了python練習冊的大部分習題：https://github.com/Show-Me-the-Code/python（我的github上有習題程式碼，歡迎自取）。之後看到@salamer的一個python爬蟲專案，覺得很不錯。於是自己花了４天的時間完成了一個大規模爬取知乎使用者資訊的爬蟲，由於個人網路原因，爬取12小時，獲得了34k使用者的資訊（理論上可以爬全站的資訊，可能時間要長一些，最好放在伺服器上跑）並整理成直觀的圖表（文章末尾顯示）。

好了，說一下主要的技術點：

（１）使用python的request模組獲取html頁面，注意要修改自己的cookie，使得我們更像是使用瀏覽器訪問

（２）使用xpath模組從html中提取需要的關鍵資訊（姓名，職業，居住地，關注人等）

（３）使用redis作為佇列，很好的解決併發和大規模資料的問題（可以分散式）

（４）使用bfs寬度優先搜尋，使得程式得以不斷擴充套件持續搜尋使用者

（５）資料儲存至no-sql資料庫：mongodb（高效輕量級並且支援併發）

（６）使用python的程序池模組提高抓取速度

（７）使用csv,pandas,matplotlib模組進行資料處理（需要完善）

接下來我們進行仔細的分析：

（一）資料的獲取

主要使用了python的request進行html的獲取，另外，header中的cookie攜帶了我們的登陸資訊，所以，按下你的F12將自己的cookie新增至程式中。

知乎上有很多水軍，我們為了更加高質量的抓取使用者資訊，使用了這樣一個策略：只抓取每個人的關注者，這樣可以相對有效的減少水軍和小號。

#cookie要自己從瀏覽器獲取
        self.header["User-Agent"]="Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:35.0) Gecko/20100101 Firefox/35.0"
        self.cookies={"q_c1":"8074ec0c513747b090575cec4a547cbd|1459957053000|1459957053000",
                      "l_cap_id":'"Y2MzODMyYjgzNWNjNGY4YzhjMDg4MWMzMWM2NmJmZGQ=|1462068499|cd4a80252719f069cc467a686ee8c130c5a278ae"',
                      "cap_id":'"YzIwNjMwNjYyNjk0NDcyNTkwMTFiZTdiNmY1YzIwMjE=|1462068499|efc68105333307319525e1fc911ade8151d9e6a6"',
                      "d_c0":'"AGAAI9whuwmPTsZ7YsMeA9d_DTdC6ijrE4A=|1459957053"',
                      "_za":"9b9dde53-9e53-4ed1-a17f-363b875a8107",
                      "login":'"YWQyYzQ4ZDYyOTAwNDVjNTg2ZmY3MDFkY2QwODI5MGY=|1462068522|49dd99d3c8330436f211a130209b4c56215b8ec3"',
                      "__utma":"51854390.803819812.1462069647.1462069647.1462069647.1",
                      "__utmz":"51854390.1462069647.1.1.utmcsr=baidu|utmccn=(organic)|utmcmd=organic",
                      "_xsrf":"6b32002d2d529794005f7b70b4ad163e",
                      "_zap":"a769d54e-78bf-44af-8f24-f9786a00e322",
                      "__utmb":"51854390.4.10.1462069647",
                      "__utmc":"51854390",
                      "l_n_c":"1",
                      "z_c0":"Mi4wQUFBQWNJQW9BQUFBWUFBajNDRzdDUmNBQUFCaEFsVk5LdkpNVndCRlQzM1BYVEhqbWk0VngyVkswSVdpOXhreDJB|1462068522|eed70f89765a9dd2fdbd6ab1aabd40f7c23ea283",
                      "s-q":"%E4%BA%91%E8%88%92",
                      "s-i":"2",
                      "sid":"1jsjlbsg",
                      "s-t":"autocomplete",
                      "__utmv":"51854390.100--|2=registration_date=20140316=1^3=entry_date=20140316=1",
                      "__utmt":"1"}

使用xpath提取html中我們需要關注的資訊，這裡給個小例子，關於xpath的用法請自行百度:)

def get_xpath_source(self,source):
        if source:
            return source[0]
        else:
            return ''

 tree=html.fromstring(html_text)
        self.user_name=self.get_xpath_source(tree.xpath("//a[@class='name']/text()"))
        self.user_location=self.get_xpath_source(tree.xpath("//span[@class='location item']/@title"))
        self.user_gender=self.get_xpath_source(tree.xpath("//span[@class='item gender']/i/@class"))

（二）搜尋和儲存

準備搜尋的url佇列可能會很大，我們使用redis作為佇列來儲存，不僅程式退出後不會丟失資料（程式重新執行可以繼續上次的搜尋），而且支援分散式水平擴充套件和併發。

核心採用BFS寬度優先搜尋來進行擴充套件，這裡不清楚的，恐怕要自己去學習下演算法了。儲存提供兩種方式，一種直接輸出至控制檯，另一種就是儲存至mongodb費關係資料庫。

#　核心模組,bfs寬度優先搜尋
def BFS_Search(option):
    global red
    while True:
        temp=red.rpop('red_to_spider')
        if temp==0:
            print 'empty'
            break
        result=Spider(temp,option)
        result.get_user_data()

    return "ok"

def store_data_to_mongo(self):
        new_profile = Zhihu_User_Profile(
        user_name=self.user_name,
        user_be_agreed=self.user_be_agreed,
        user_be_thanked=self.user_be_thanked,
        user_followees=self.user_followees,
        user_followers=self.user_followers,
        user_education_school=self.user_education_school,
        user_education_subject=self.user_education_subject,
        user_employment=self.user_employment,
        user_employment_extra=self.user_employment_extra,
        user_location=self.user_location,
        user_gender=self.user_gender,
        user_info=self.user_info,
        user_intro=self.user_intro,
        user_url=self.url
        )
        new_profile.save()

（三）多程序提高效率

python由於GIL鎖的原因，多執行緒並不能達到真正的並行。這裡使用python提供的程序池進行多程序操作，這裡有一個問題需要大家注意：

實際測試下來，在選取將資料儲存至mongodb資料庫這個方式下，多程序沒能提高效率，甚至比單程序還要慢，我分析了下原因：由於計算的部分花時間很少，主要的瓶頸在磁碟IO，也就是寫進資料庫，一個時刻只能有一個程序在寫，多程序的話會增加很多鎖機制的無端開銷，造成了上述結果。

但是直接輸出的話速度會快很多。這也提示我們多程序並不是一定能提高速度的，要根據情況選擇合適的模型。

使用多程序，注意，實際測試出來，並沒有明顯速度的提升,瓶頸在IO寫;如果直接輸出的話,速度會明顯加快
    res=[]
    process_Pool=Pool(4)
    for i in range(4):
        res.append(process_Pool.apply_async(BFS_Search,(option, )))

    process_Pool.close()
    process_Pool.join()

    for num in res:
        print ":::",num.get()
    print 'Work had done!'

（四）資料分析

這裡我們使用csv，pandas模組進行資料分析，關於模組的使用請自行google，這裡貼出自己做出的一些分析圖:

知乎使用者城市分佈：

一線城市的使用者高居榜首，尤其北京。美國的也好多啊..

知乎使用者專業分佈：

果然知乎上的程式猿最多。。

知乎使用者學校分佈：

清北和華東五虎高校的學校居多，看來知乎的學生群體質量很高。

知乎使用者職業分佈：

很多大佬啊，這麼多創始人和CEO，還有天敵：產品經理....

好了，就展示到這裡吧，對這個專案有興趣的同學，可以到我的Github檢視，原始碼全部在　這裡

資料分析部分並不專業，希望更多的人來完善這個專案，我自己也會開啟下一步學習，將其改為分散式爬蟲，希望給大家帶來幫助～

python: 知乎大規模（34k）使用者爬蟲

python: 知乎大規模（34k）使用者爬蟲

微信小程式日記——高仿知乎日報（上）

Android 高仿知乎日報（1）

知乎搜尋/（引擎）的故事

python知乎內容抓取（redis存儲）

知乎--LSTM（挺全的）

Python 接口測試（一）

Python 接口測試（五）

Python 接口測試（三）

Python 接口測試（四）

Python 接口測試（二）

python學習之路（四）

python學習-day6-生成器（generator）

python中的JSON（1）

Python學習手冊筆記（1）：Python對象類型

Python httpServer服務器（初級）

python交互式（input）

Python入門系列教程（二）

Python Click 學習筆記（轉）

Python入門系列教程（五）函數

python: 知乎大規模（34k）使用者爬蟲

相關推薦