1. 程式人生 > >java平臺名人錄之nutch

java平臺名人錄之nutch

        Nutch為我們提供了這樣一個不同的選擇. 相對於那些商用的搜尋引擎, Nutch作為開放原始碼搜尋引擎將會更加透明, 從而更值得大家信賴. 現在所有主要的搜尋引擎都採用私有的排序演算法, 而不會解釋為什麼一個網頁會排在一個特定的位置.

       Nutch 是一個基於Lucene開發的誕生不久的開放原始碼(open-source)的web搜尋引擎.

儘管Web搜尋是漫遊Internet的基本要求, 但是現有web搜尋引擎的數目卻在下降. 並且這很有可能進一步演變成為一個公司壟斷了幾乎所有的web搜尋為其謀取商業利益.這顯然不利於廣大Internet使用者.

       Nutch為我們提供了這樣一個不同的選擇. 相對於那些商用的搜尋引擎, Nutch作為開放原始碼搜尋引擎將會更加透明, 從而更值得大家信賴. 現在所有主要的搜尋引擎都採用私有的排序演算法, 而不會解釋為什麼一個網頁會排在一個特定的位置. 除此之外, 有的搜尋引擎依照網站所付的費用, 而不是根據它們本身的價值進行排序. 與它們不同, Nucth沒有什麼需要隱瞞, 也沒有動機去扭曲搜尋的結果. Nutch將盡自己最大的努力為使用者提供最好的搜尋結果.

       Nutch 致力於讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜尋引擎. 為了完成這一巨集偉的目標, Nutch必須能夠做到:
---每個月取幾十億網頁
---為這些網頁維護一個索引
---對索引檔案進行每秒上千次的搜尋
---提供高質量的搜尋結果
---以最小的成本運作(轉載文章請保留出處:

相關推薦

java平臺名人nutch

        Nutch為我們提供了這樣一個不同的選擇. 相對於那些商用的搜尋引擎, Nutch作為開放原始碼搜尋引擎將會更加透明, 從而更值得大家信賴. 現在所有主要的搜尋引擎都採用私有的排序演算法, 而不會解釋為什麼一個網頁會排在一個特定的位置.        Nutch 是一個基於Lucene開發的誕

java平臺名人lucene

      Lucene的原作者是Doug Cutting,他是一位資深全文索引/檢索專家,曾經是V-Twin搜尋引擎[6]的主要開發者,後在Excite[7]擔任高階系統架構設計師,目前從事於一些Internet底層架構的研究。早先發布在作者自己的,後來釋出在[8],200

nopCommerce 3.9 大波浪系列 微信公眾平臺插件

authent verify rip state link value eat round 掃描 一.簡介 nop支持第三方登錄授權擴展,本篇通過編寫微信公眾平臺登錄插件進一步了解nop授權登錄的開發過程。 微信公眾平臺、微信開放平臺使用場景不一樣,

java中的引用OA現金盤平臺維護

ear 四種 管理 cep jar null test 垃圾收集 lang 從Java SE2開始,Java提供了強引用、軟引用、弱引用和虛引用四種引用類型。其目的有:1)便於垃圾收集器回收;2)方便程序 員通過代碼的方式管理對象的生命周期。 使用示例 1.強引用:OA現金

Java介面自動化測試「Mock介面平臺」,讓你的自動化更提前

前言:目前Mock技術已經比較成熟,在日常的工作中Mock也可以給我們帶來很大的遍歷,本篇文章將會使用Moco框架,一步一步搭建一套Mock Server,使得介面的自動化測試更加的提前,也能夠使得前後端分離。 共識與痛點 目前,在軟體行業內,大家已經達成的共識就是,測試

Java B2B2C多用戶商城 springcloud架構-SSO單點登OAuth2.0登流程

pass post 方式 b2b sha body 當前 客戶端 water 上一篇是站在巨人的肩膀上去研究OAuth2.0,也是為了快速幫助大家認識OAuth2.0,閑話少說,我根據框架中OAuth2.0的使用總結,畫了一個簡單的流程圖(根據用戶名+密碼實現OAuth2.

(十二)Java B2B2C多用戶商城 springboot架構-SSO單點登OAuth2.0

fff 用戶 red auth src ror 單點登錄 更多 watermark 上一篇我根據框架中OAuth2.0的使用總結,畫了一個根據用戶名+密碼實現OAuth2.0的登錄認證的流程圖,今天我們看一下logout的流程: /** * 用戶註銷

(十一)Java B2B2C o2o多用戶商城-SSO單點登OAuth2.0登流程(2)

-- 設計思想 組件 expire image term 總結 pass 一起 上一篇是站在巨人的肩膀上去研究OAuth2.0,也是為了快速幫助大家認識OAuth2.0,閑話少說,我根據框架中OAuth2.0的使用總結,畫了一個簡單的流程圖(根據用戶名+密碼實現OAuth2

Java讀取登檔總結讀取的簡單方法

============================================================= 【注】 登錄檔非常非常重要,如果操作不當,極有可能使系統崩潰。所以在操作之前,請備份完整的登錄檔資料。以備不時之需。   備份方法 ======

Java讀取登檔總結com.ice.jni.registry

com.ice.jni.registry包是Windows登錄檔API的Java本機介面。這使得Java程式可以非常方便的訪問,修改Windows的登錄檔資源。 下面重點演示如何讀取Windows的登錄檔。以Windows 7 x86為例。演示所用到的jar包和dll檔案請

Java名人

最近看關於TSSS2005的文章,上面一大堆人名看得頭暈腦脹的。開個檔案把張三李四按姓氏筆畫記下來方便查詢,也方便日後的八卦。 不斷錯漏,不斷更新中.... 人名上的連結是xiecc寫的諸人八卦,很有狗仔隊翻人中學畢業紀念冊的風範。Adrian ColyerAspectJ leade

全文索引-lucene,solr,nutch,hadoopnutch與hadoop

aof java get 查詢 自己 結構 目的 strong 之間 全文索引-lucene。solr。nutch,hadoop之lucene 全文索引-lucene。solr,nutch,hadoop之solr 我在去年的時候,就想把lucene,sol

Java與算法(9) - 直接插入排序

set reat 正是 stat copy boa 派生 creat 人的 直接插入排序是最簡單的排序算法,也比較符合人的思維習慣。想像一下玩撲克牌抓牌的過程。第一張抓到5,放在手裏;第二張抓到3,習慣性的會把它放在5的前面;第三張抓到7,放在5的後面;第四張抓到4,那麽我

Java與算法(8) - 堆排序

循環 public tar 最大 swap https rgs tool 技術分享 堆是一種特殊的完全二叉樹,其特點是所有父節點都比子節點要小,或者所有父節點都比字節點要大。前一種稱為最小堆,後一種稱為最大堆。 比如下面這兩個: 那麽這個特性有什麽作用?既然題目是堆排序,

Java與算法(5) - 老鼠走迷宮(深度優先算法)

tail 數字化 boa pop ase lis ext oar tar 小老鼠走進了格子迷宮,如何能繞過貓並以最短的路線吃到奶酪呢? 註意只能上下左右移動,不能斜著移動。 在解決迷宮問題上,深度優先算法的思路是沿著一條路一直走,遇到障礙或走出邊界再返回嘗試別的路徑。 首

Java與算法(7) - 完全二叉樹

itl 輸出 void 結構 ray 線性 net pop pbo 樹 下圖是一“棵”樹的樣子。樹這個名稱起的很形象,整個數據結構由根、枝、葉組成,其中1為根節點,2、3是1的子節點,4、5、6、8、9、10這幾個沒有子節點的節點稱為葉節點。 節點的度:一個節點的

Java與算法(6) - 八皇後問題

tools trac ava height com 技術分享 false fis light 在8×8格的國際象棋上擺放八個皇後,使其不能互相攻擊,即任意兩個皇後都不能處於同一行、同一列或同一斜線上,問有多少種擺法。 (文字和圖片來自百度百科) 如果動手來擺放皇後,可以

Java接口測試使用有道翻譯API

== continue 接口測試 its turn 進行 each exce tostring 寫接口測試框架,找了有道翻譯API來當測試數據 package com.httpGetTest; import java.beans.Encoder; import

JAVA模擬登實例

exceptio sig fire client 請求 其它 log new mono 近期在做公司一個web項目。要求在我們的系統上,可以顯示其它站點上的數據。 剛開始接到這個任務時,還在想。簡單的非常。直接用UrlConection直接進入該網頁,然後獲取該網

Java進擊C#——語法多線程

明顯 源碼 max 更多 sta 關於 如何使用 關系 中文 本章簡言 上一章中筆者對C#一些獨有的語法點進行講解,相信也可以看C#的一些神奇之處。那麽本章主要是放在多線程這方面的知識。不管是C#還是JAVA在開發過程或多或少都會用到關於多線程的編程。當然筆者不