1. 程式人生 > >以58同城為例詳解如何用爬蟲採集二手房房源資料及中介聯絡方式

以58同城為例詳解如何用爬蟲採集二手房房源資料及中介聯絡方式

2008年9月4日,英國《自然》雜誌刊登了一個名為“Big Data”的專輯,首次提出大資料概念,該專輯對如何研究PB級容量的大資料流,以及目前正在制訂的、用以最為充分地利用海量資料的最新策略進行了探討。2011、2012年達沃斯世界經濟論壇將大資料作為專題討論的主題之一,釋出了《大資料、大影響:國際發展新的可能性》等系列報告。 

2011年以來,中國成立了大資料委員會,研究大資料中的科學與工程問題,科技部《中國雲科技發展“十二五”專項規劃》和工信部《物聯網“十二五”發展規劃》等都把大資料技術作為一項重點予以支援。業界普遍認為,2013年是中國“大資料元年”。

根據IDC作出的估測,資料一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大資料摩爾定律),並且大量新資料來源的出現則導致了非結構化、半結構化資料爆發式的增長,這意味著人類在最近兩年產生的資料量相當於之前產生的全部資料量,預計到2020年,全球將總共擁有35億GB的資料量,相較於2010年,資料量將增長近30倍。這不是簡單的資料增多的問題,而是全新的問題。 

大資料時代的到來,使我們要處理的資料量實在是太大、增長太快了,而業務需求和競爭壓力對資料處理的實時性、有效性又提出了更高要求,傳統的常規技術手段根本無法應付。

大資料的特徵具有資料量大、型別繁多、價值密度低及速度快時效高等特點,面對大資料的全新特徵,既有的技術架構和路線,已經無法高效地處理如此海量的資料,而對於相關組織來說,如果投入巨大采集的資訊無法通過及時處理反饋有效資訊,那將是得不償失的。可以說,大資料時代對人類的資料駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。

而大資料蘊含著極大的價值,對我們的工作和生活具有重大的影響,如何快速有效的獲取到這些資料為我們服務,是一個大難題。出現了問題,自然就有解決問題的人,為了解決這一問題,后羿工程師團隊經過不斷的探索和研發,終於開發出一款基於人工智慧技術的網路爬蟲軟體,只需要輸入網址就能夠自動識別網頁資料,無需配置即可完成資料採集,是業內首家支援三種作業系統(包括Windows、Mac和Linux)的採集軟體。同時這是一款真正免費的資料採集軟體,對採集結果匯出沒有任何限制,沒有程式設計基礎的小白使用者也可輕鬆實現資料採集要求。

我們以58同城杭州地區二手房源為例,為大家介紹如何運用軟體採集二手房房源資訊及中介聯絡電話。

首先複製需要採集的網址,注意需要複製的是結果頁的網址,而不是搜尋頁的網址,然後在軟體中輸入網址新建智慧採集任務。

接著我們對智慧識別出的欄位進行處理,可以修改欄位名稱,增加或者刪除欄位等。

由於在在列表頁上只展示出了部分資訊,如果需要房源的具體描述的話,我們需要右擊房源連結使用“深入採集”功能,跳轉到詳情頁進行採集。

深入採集欄位設定完畢後,我們點選“儲存並啟動”按鈕,執行爬蟲工具。

資料抽取完畢後,我們可以匯出資料,軟體提供多種的匯出方式,我們可以自由選擇。

我們匯出一個excel2007的表格,可以看到資料還是非常完整的,我們可以直接使用這個資料,也可以在這個基礎上對資料進行加工處理。