1. 程式人生 > >用 Scrapy+Mariadb 實現漢典資料爬蟲(一)——開發環境的選擇

用 Scrapy+Mariadb 實現漢典資料爬蟲(一)——開發環境的選擇

最近準備搞大資料,大資料的第一研究方向當屬爬蟲了,所以就決定從爬蟲入手,一步一步做研究。之前用C#寫過一個百度雲關係網路爬蟲,親身經歷了爬取速度從10s一個(單機百度雲爬取速度限制)到100個/s(三個端,100個)的改變,也積攢了一些經驗。後來曾想過用這些經驗寫一個爬蟲框架,但是以目前的水平,還是有點難度。所以就決定先研究下大牛們開發的開源爬蟲框架,從頭開始重做關係爬蟲,順帶把過程與心得寫一下,希望各位朋友提出任何問題,建議,學無止境,共同進步,同時也希望能為那些處於迷惑中的朋友們提供一個借鑑。廢話不多說,現在進入正文。

對於開發環境的選擇,通過網路上大牛們的比較,Scrapy 0.25中文文件比較全,基於Py2.0。而Scrapy 1.2中文文件相對較少,但是基於Py3.0。從目前階段來說,雖說後者資料較少,但是作為研究還是挺有意義的,所以最終選擇了 Scrapy 1.2 + Py3.0。

由於自己以前從事的是C#開發,使用Visual Studio相對熟練一點,並且Visual Studio 2015 增加了對Python程式設計的支援,所以選擇了Visual Studio 2015作為開發環境。

關於資料庫的選擇,自己之前寫C#爬蟲時經歷了 一個從MySql到MariaDB的轉變,因為MaraiDB相比較MySql對於資料的操作速度是快了很多,而且開源社群也很活躍,畢竟是MySQL被收購之後MySQL之父單獨建立的分支,其分量不言而喻。

所以,最終決定下來的開發環境如下:

作業系統:WIndows 10

開發語言:Python

開發軟體:Visual Studio 2015

爬蟲框架:Scrapy 1.2

資料庫:Mariadb