1. 程式人生 > >淺談資料採集(爬蟲)的一些工作經驗

淺談資料採集(爬蟲)的一些工作經驗

這裡先談談我的學習背景吧,不喜歡可以繞過,純屬自學之路,然後求職之路,沒有任何技術原理。。

學了一個月的python,,可能語法比較簡單的關係,很快就接觸到python爬蟲,一開始我真的很不理解爬蟲是幹什麼的,後來到傳智部落格的官網看了一下python的課程,也發現也有爬蟲的課程,就開始嗑視訊了,大概看了兩個星期的我,已經開始投簡歷了,不過結果顯而易見,沒有工作經驗是很難找到專職爬蟲的崗位的。後來我問了一些朋友,他們給我的建議就是跑偏門。

後來我就直接投一些資料採集的崗位,因為是實習,所以對於錢看的比較淡。因為簡歷我自己也不會寫,就去淘寶交了幾十塊幫忙寫。果不其然,我第一天投的簡歷,後了第二天就有了迴應了。叫我去面試。心裡那叫一個激動。

好了,我面試的崗位的工作內容就是爬取電商網站的資料,好比比較奇葩的是,他們公司並沒有要求我用程式碼去爬,而是用一個叫八爪魚的工具,因為我沒用過這個軟體,可是面試官也不太懂技術,就問我會不會,我那時候掌握的技術就是一些基本的爬取原理,並沒有實戰過,可是內心戲就是反正我是學東西的,而且工具肯定沒有程式碼的難,怎麼說也算入行,那就騙面試官說會會會!

哈哈哈,到了公司之後,前一個星期那個壓力真的挺大的,一開始就叫我用那個工具爬取淘寶商品詳情的資料,我就在想,那個工具要掌握,其實就四個要點,xpath,正則表示式,還有簡單的http協議,當然還需要掌握web前端的基本知識。

慢慢的,我熟悉了那個軟體,上面所說的四個要點也經過不斷的百度慢慢能做到公司業務的需求了。經過了兩個月的實習,我相信我已經很掌握這個工具了,可是自己比誰都清楚,工具肯定沒有程式碼快,而且就是這個軟體還是要收費的。心想,萬一我的到了別的公司,這些資料還不是要用程式碼去爬,想要高工資,只有一天路,那就是程式碼爬蟲。。

這時候對於程式碼爬蟲,我腦子裡馬上就想到我一開始學了一個月的python了,我開始上班偷偷花時間用python寫爬蟲了。因為之前爬過的電商網站還是挺多的,對於需求我是知道的,所以學起來比較有方向。其實這些對於一個沒經驗的小白確實是個很重要的工作經驗,過來人來說,不懂需求,學起來會很無味,不過不怕,小編我在這裡列表幾個需求。。

就拿淘寶為例,其他電商網站大同小異。。

淘寶有很分類,就好比男裝,女裝,每個分類有很多店鋪,每個店鋪裡面又有很多分類,分類下面有很多商品,商品裡面很多詳情資訊,所以要求就是一個店鋪,你能看見的資訊都要爬取。這就是需求。

好了,小編寫到這,決定還是把求職經歷和技術貼分開,這樣看起來沒那麼枯燥,今天就先寫到這,等有時間再寫一個完整的技術貼,附上原始碼。