1. 程式人生 > >nutch 1.2 hadoop 錯誤解決Stopping at depth=0

nutch 1.2 hadoop 錯誤解決Stopping at depth=0

Stopping at depth=0 - no more URLs to fetch
 

看了好多版本的lnutch-1.2/conf/crawl-urlfilter.txt修改

從國內的:

urls/url.txt 或# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*163.com/

 者是urls/urllist.txt

http://www.163.com/
 

到國外的appache

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*appache.com/
 

urls/url.txt 或者是urls/urllist.txt

http://www.appache.com/

看到有人說:nutch0.9 的url.txt要改成兩個相同地址,只有一個nutch會忽然掉第一個地址,所以就沒了。

也照做了,還是沒有辦法。

最後出現一個想法,因為hadoop的每個機器上的程式碼都要一致的。

之前已經配好了hadoop,已經啟動了。

再配置crawl-urlfilter.txt的時候,我沒有scp到其他的linux下。所以我嘗試著把crawl-urlfilter.txt檔案scp到其他的linux機器對應目錄上。再次 

hdfs  urls/url.txt裡的內容是:

http://www.163.com/
http://www.163.com
http://www.163.com/
http://www.163.com/  
$ nutch crawl  urls -dir crawl -depth 3 -topN 10
 果然不再出現上述錯誤了。 但是出現了Stopping at depth= - no more URLs to fetch的錯誤,顯然上面沒能解決問題。
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=1 - no more URLs to fetch.
 

相關推薦

nutch 1.2 hadoop 錯誤解決Stopping at depth=0

Stopping at depth=0 - no more URLs to fetch   看了好多版本的lnutch-1.2/conf/crawl-urlfilter.txt修改 從國內的: urls/url.txt 或# accept hosts in MY.DOMAIN.NAME +^http

ERROR: JDWP Unable to get JNI 1.2 environment的解決方法

pre 發生 next ret bsp println 資料 new 獲取 當執行如下代碼時: //從控制臺獲取輸入 InputStream is = System.in; Scanner scanner = new Sca

ubantu安裝mysql-python==1.2.5失敗解決

pip install mysql-python報錯  Failed building wheel for mysql-python  Running setup.py clean for mysql-python Failed to build mysql-python

hadoop錯誤解決辦法:-------HDFS上傳檔案儲存錯誤或速度很慢

出現症狀: 2018-11-22 11:28:12,711 WARN hdfs.DataStreamer: Abandoning BP-2142139802-10.20.2.1-1536240602405:blk_1073765062_24289 2018-11-22 11:28:12,71

Linux 出現telnet: 127.0.0.1: Connection refused錯誤解決辦法

Linux 出現telnet: connect to address 127.0.0.1: Connection refused錯誤解決辦法 沒有xinetd服務: 1、/etc/init.d目錄中放置了系統中各個daemon服務的指令碼,xinetd是其中之一。 2、xinetd是一種特殊的daemon服

【資料結構與演算法分析】1.2 編寫程式解決字謎問題

原博:http://blog.csdn.net/u013667086/article/details/49179741 問題描述:       從已知的字謎中找出在字典中的單詞 解決思路:        1、用指標陣列存放字謎和字典單詞        2、將字典單

for column "xxx" at row 1錯誤解決辦法

utf 服務 是我 解決 style 是不是 set ini ner 錯誤原因以及解決辦法: 1、表裏的這個字段的數據太長 辦法:把字段名稱的長度改長點 2、字符集或排序規則不正確,這個錯誤一般是你字段裏要存中文漢字造成的; 辦法:一般我們是我們數據庫的字符集是utf-

JSTL 1.2 jsp使用jstl匯入包的各種錯誤解決

JSTL 1.2 使用遇到的問題 JSP 程式碼 <%@ page language="java" contentType="text/html; charset=GB18030" pageEncoding="GB18030" isELIg

non-zero exit value 1,non-zero exit value 2, non-zero exit value 3錯誤解決辦法

在進行打包編譯的時候,經常會遇到這幾個問題,這裡結合網上的文章總結一下: 錯誤詳細: Error:Execution failed for task ':app:transformClassesWi

Expected BEGIN_OBJECT but was BEGIN_ARRARY at line 1 column 2 path$異常解決方法

[ { "id": 1, "name": "移動開發", "alias": "mobile" }, { "id"

Kibana 5.1.2 原始碼啟動錯誤解決辦法

對Kibana 5.1.2 原始碼進行分析時,發現按照Kibana提供的命令無法啟動,錯誤如下: # 啟動kibana原始碼 npm run start # 結果提示如下錯誤 bad option: --no-warnings 分析問題可能處在n

CentOS 7安裝autoconf-2.69報BEGIN failed--compilation aborted at ../bin/autom4te line 37.錯誤解決

安裝yum groupinstall perl*  搞定了。 原因 CLAIMS 第三方安裝包編譯問題 ECNU 90s叢集是個環境複雜的叢集,claims使用者由於需要單獨升級gcc 等系統工具版本,並且保留原有工具供OB team使用,故造成claims使用者獨

解決微信小程式ios請求ssl錯誤問題 windows server 2008 R2預設ssl2.0 改成1.2

https://support.quovadisglobal.com/kb/a433/how-to-enable-tls-1_2-on-windows-server-2008-r2.aspx 大致意思,更改登錄檔,新增預設項,預設值,重啟伺服器就好 英語好的自己看,不好

Qt5.2.1 Mac 10.9 Undefined symbols for architecture x86_64 錯誤解決

更新Mac 10.9.2後,之前的Qt程式執行出現以下錯誤: Undefined symbols for architecture x86_64: "___sincos_stret", referenced from: ... "___sincos_

【轉載】Hadoop 2.7.3 和Hbase 1.2.4安裝教程

啟動 運行 property new rop net 文本文 .tar.gz cor 轉載地址:http://blog.csdn.net/napoay/article/details/54136398 目錄(?)[+] 一、機器環境

Dynamic Web Module 3.1 requires Java 1.7 or newer. 錯誤解決方案

pom.xml文件 artifact logs per group -s conf 你會 cti 在寫代碼的時候工程出現了這樣奇怪的bug很是蛋疼啊,經過查詢解決方法,終於解決了這些個問題。 下面是解決問題的方法,和大家分享一下 (1)確定你的java工程配置使用了java

Ubuntu10.04 編譯並安裝Linux 內核2.6.32.60版本及錯誤解決

fdisk命令 prop 這一 boot 虛擬 相關 uuid 電源 linux分區 本文主要是寫給內核學習新手的,主要是在VMWare虛擬機上進行操作。 首先安裝對應版本的編譯工具鏈。 下面進行編譯和安裝。 1.首先解壓源碼。 2.使用cp命令把解壓之後的源碼復制到 /u

thinkphp3.2.3+smarty解決success調用模板錯誤心得

target 文件夾 是你 跳轉 大神 pub smart 出現 upload 最近學習thinkphp上癮,出現success找不到模板問題,查閱各大神解決方案,分享一下針對新手如何解決該問題,如有不對的地方請大神指正1.首先修改自己的config文件,添加如下配置代碼:

Visual Studio 2015 Update 1 安裝到最後 KB3022398 錯誤解決方法

content cal style 程序 修復 sof microsoft data key 最後一步遇到一個錯誤的確讓人心寒 只是我們還是得一步步解決。別去卸載重裝。太費時 首先打開 regedit 註冊表,依次進入: 1:HKEY_LOCA

Python 2.6 安裝wxPython後提示"64.....32"錯誤解決辦法

mode mac 只需要 margin 解決方案 import ont lin ext p.p1 { margin: 0.0px 0.0px 10.0px 0.0px; line-height: 20.0px; font: 14.0px "PingFang SC" } li