1. 程式人生 > >推薦10款流行的java開源的網絡爬蟲

推薦10款流行的java開源的網絡爬蟲

java爬蟲 網絡爬蟲

1:JAVA爬蟲WebCollector(Star:1345)

爬蟲簡介: WebCollector是一個無須配置、便於二次開發的JAVA爬蟲框架(內核),它提供精簡的的API,只需少量代碼即可實現一個功能強大的爬蟲。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。 爬蟲內核: WebCollector致...

2:開源通用爬蟲框架YayCrawler(Star:91)

YayCrawler是一個基於WebMagic開發的分布式通用爬蟲框架,開發語言是Java。我們知道目前爬蟲框架很多,有簡單的,也有復雜的,有輕 量型的,也有重量型的

3:垂直爬蟲WebMagic

(Star:1213)

webmagic的是一個無須配置、便於二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。 以下是爬取oschina博客的一段代碼: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http...

4:雅虎開源的Nutch爬蟲插件 Anthelion(Star:2888)

Anthelion 是 Nutch 插件,專註於爬取語義數據。 註意:此項目包括完整的 Nutch 1.6 版本,此插件放置在 /src/plugin/parse-anth Anthelion 使用在線學習方法來基於頁面上下文預測富數據 Web 頁面,從之前查看的頁面提取的元數據獲取反饋。 主要有三個擴展: AnthelionScoringFilter WdcParser TripleExtractor 示例:...

5:Java開源網絡爬蟲項目Nutch

Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。 Nutch的創始人是Doug Cutting,他同時也是Lucene、Hadoop和Avro開源項目的創始人。 Nutch誕生於2002年8月,是Apache旗下的一個用Java實現的開源搜索引擎項目,自Nutch1.2版本之後,Nutch已經從搜索引擎演...

6:Java網絡蜘蛛/網絡爬蟲Spiderman(Star:1801)

Spiderman - 又一個Java網絡蜘蛛/爬蟲 Spiderman 是一個基於微內核+插件式架構的網絡蜘蛛,它的目標是通過簡單的方法就能將復雜的目標網頁信息抓取並解析為自己所需要的業務數據。 最新提示:歡迎來體驗最新版本Spiderman2,http://git.oschina.net/...

7:輕量化的Java網絡爬蟲 GECCO(Star:658)

Gecco是什麽 Gecco是一款用java語言開發的輕量化的易用的網絡爬蟲。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等優秀框架,讓您只需要配置一些jquery風格的選擇器就能很快的寫出一個爬蟲。Gecco框架有優秀的可擴展性,框架基於開閉原則進行設計,對修改關閉、對擴展開放。同時Gecco基於十分開...

8:開源爬蟲框架WebPasser(Star:15)

WebPasser是一款可配置的開源爬蟲框架,提供爬蟲控制臺管理界面,通過配置解析各類網頁內容,無需寫一句java代碼即可抽取所需數據。 1.包含強大的頁面解析引擎,提供jsoup、xpath、正則表達式等處理鏈,通過簡單配置即可抽取所需的指定內容。 2.提供爬蟲控制管理界面,可實時監控抓取狀...

9:一個敏捷強大的Java爬蟲框架SeimiCrawler(Star:635)

SeimiCrawler是一個敏捷的,獨立部署的,支持分布式的Java爬蟲框架,希望能在最大程度上降低新手開發一個可用性高且性能不差的爬蟲系統的門檻,以及提升開發爬蟲系統的開發效率。

10:爬蟲系統NEOCrawler(Star:258)

NEOCrawler(中文名:牛咖),是nodejs、redis、phantomjs實現的爬蟲系統。代碼完全開源,適合用於垂直領域的數據采集和爬蟲二次開發。 【主要特點】 使用nodejs實現,javascipt簡單、高效、易學、為爬蟲的開發以及爬蟲使用者的二次開發節約不少時間;nodejs使...

推薦10款流行的java開源的網絡爬蟲