1. 程式人生 > >nutch2.3.1 updatejob時錯誤url導致崩潰

nutch2.3.1 updatejob時錯誤url導致崩潰

原因可能是錯誤的html解析出來的
在DbUpdateMapper.java的map時加個trycatch

 55  @Override
 56  public void map(String key, WebPage page, Context context)
 57      throws IOException, InterruptedException {
 58    if (Mark.GENERATE_MARK.checkMark(page) == null) {
 59      if (LOG.isDebugEnabled()) {
 60        LOG.debug
("Skipping " + TableUtil.unreverseUrl(key) 61 + "; not generated yet"); 62 } 63 return; 64 } 65 66 String url = TableUtil.unreverseUrl(key); 67 68 scoreData.clear(); 69 Map<CharSequence, CharSequence> outlinks = page.getOutlinks(); 70 if (outlinks != null) { 71
for (Entry<CharSequence, CharSequence> e : outlinks.entrySet()) { 72 int depth = Integer.MAX_VALUE; 73 CharSequence depthUtf8 = page.getMarkers().get(DbUpdaterJob.DISTANCE); 74 if (depthUtf8 != null) 75 depth = Integer.parseInt(depthUtf8.toString()); // add
here to filter error url 76 try { 77 String testUrl = TableUtil.reverseUrl(e.getKey().toString()); 78 } catch (MalformedURLException ex) { 79 LOG.warn("dbupdate,error url:" + e.getKey().toString()); 80 continue; 81 } 82 scoreData.add(new ScoreDatum(0.0f, e.getKey().toString(), e.getValue() 83 .toString(), depth)); 84 } 85 } 86 87 // TODO: Outlink filtering (i.e. "only keep the first n outlinks") 88 try { 89 scoringFilters.distributeScoreToOutlinks(url, page, scoreData, 90 (outlinks == null ? 0 : outlinks.size())); 91 } catch (ScoringFilterException e) { 92 LOG.warn("Distributing score failed for URL: " + key + " exception:" 93 + StringUtils.stringifyException(e)); 94 } 95 96 urlWithScore.setUrl(key); 97 urlWithScore.setScore(Float.MAX_VALUE); 98 pageWritable.setWebPage(page); 99 nutchWritable.set(pageWritable); 100 context.write(urlWithScore, nutchWritable); 101 102 for (ScoreDatum scoreDatum : scoreData) { 103 String reversedOut = TableUtil.reverseUrl(scoreDatum.getUrl()); 104 scoreDatum.setUrl(url); 105 urlWithScore.setUrl(reversedOut); 106 urlWithScore.setScore(scoreDatum.getScore()); 107 nutchWritable.set(scoreDatum); 108 context.write(urlWithScore, nutchWritable); 109 } 110 }

相關推薦

nutch2.3.1 updatejob錯誤url導致崩潰

原因可能是錯誤的html解析出來的 在DbUpdateMapper.java的map時加個trycatch 55 @Override 56 public void map(String key, WebPage page, Context con

nutch2.3.1 scoring-opic 外掛url評分為0 問題

執行nutch程式,發現除了入口url等分為1以外,其餘的url得分都為0,問題如下圖紅圈所示。 首先在org.apache.nutch.scoring.opic.OPICScoringFilter類裡面打斷點定位問題,每次執行到下面紅圈處,程式就re

nutch2.3.1 構建solr6索引meta_keywords longer than the max length 32766

解決辦法有3 1是在managed schema置meta_* 的index=false 2是在managed schema置meta_* 的type=任意一種class是solr.TextFiel

androidstudio2.3.1 ndk 編譯錯誤error: clang frontend command failed with exit code 70 (use -v to

問題描述 android ndk編譯公司舊程式碼時出現如下錯誤: clang.exe: error: clang frontend command failed with exit code 70 (use -v to see invocation) 原因分析&查詢

Nutch2.3.1在Linux上部署

1、下載Nutch2.3.1,使用Ant構造Eclipse工程 2、在Idea中匯入Nutch 3、配置nutch-default.xml檔案 <property>   <name>plugin.folders</name>   &

windows上Nutch2.3.1匯入Eclipse詳解

自己搞了大半天才配置好,所以記錄一下。 正文:環境配置:Eclipse:Mars(4.5.2)  JDK1.7   Ivy:2.4.0              http://download.csdn.net/detail/xiaoyaoxiaozi007/9921665

Nutch2.3.1 hbase配置加使用。

ivy必須配合ant 安裝ant #yum -y install ant #mkdir /home/nutch-hbase #cd /home/nutch-hbase #tar zxvf apache-nutch-2.3.1-src.tar.gz #mv apache-nu

nutch2.3.1 SolrDeleteDuplicates.java 去重時空指標崩潰

修改原始碼如下: @Override public boolean nextKeyValue() throws IOException, InterruptedException

Nutch2.3.1版本選擇

1. Nutch主頁:http://nutch.apache.org/# 2. Nutch有1.X和2.X兩個版本 (1)1.X依賴於Hadoop,適合做分散式。目前最高版本為1.13 (2)2.X與1.X最關鍵的不同是引入了Gora,資料持久化不再侷限於某一種資料庫。目前

Nutch2.3.1原始碼開發環境搭建

原始碼下載 修改配置檔案 修改配置檔案conf/nutch-site.xml <!-- Put site-specific property overrides in this file. --> <config

整合Nutch2.3.1/Hadoop2.5.2/Hbase1.1.5/Solr4.10.4構建搜尋引擎:安裝及執行

第一次寫部落格,之前從來沒有寫過部落格因為不知道要寫什麼,這次寫部落格是因為自己在學習東西的時候遇見很多問題,國內的技術資料基本都是比較老的,要不就是nutch2.x整合hadoop1.x的,沒有找到整合hadoop2.x的,對hbase的整合度也很少,自己在學習的時候,

3-1長短記憶神經網路(LSTM)--簡單程式碼實現

LSTM(Long Short-Term Memory)是長短期記憶網路,是一種時間遞迴神經網路,適合於處理和預測時間序列中間隔和延遲相對較長的重要事件。LSTM 已經在科技領域有了多種應用。基於LSTM的系統可以學習翻譯語言、控制機器人、影象分析、文件摘要、語音識別影象識別

ICP 3.1社群版貌似這幾天安裝出現helm的錯誤導致catalog 及helm release的圖形介面功能無法使用。

ICP 3.1社群版貌似這幾天安裝出現helm的錯誤,導致catalog 及helm release的圖形介面功能無法使用。 只能看3.1.1是否有問題了。     TASK [Creating the install lock file] ***********

eclipse建立maven工程沒有src/main/resources資料夾和web.xml使用3.1的dtd工程有錯誤的問題

1.有時候我們建立maven時會發現沒有src/main/resources檔案, 解決方法:右鍵工程———>>build path——>>選擇Source——>>Add Folder——>>勾選webapp——>&g

Dynamic Web Module 3.1 requires Java 1.7 or newer. 錯誤解決方案

pom.xml文件 artifact logs per group -s conf 你會 cti 在寫代碼的時候工程出現了這樣奇怪的bug很是蛋疼啊,經過查詢解決方法,終於解決了這些個問題。 下面是解決問題的方法,和大家分享一下 (1)確定你的java工程配置使用了java

關於python3.6.3 與python2.7.14使用for循環便利遇到in range(變量)錯誤

變量 span 發現 顯示 pri 3.6 obj inpu range 1. number = input("Enter a numbers: ")2. product = 13. for i in range(number):4. product = prod

Drupal V7.3.1 框架處理不當導致SQL註入

literal select getc 十分 req bar databases 網絡 inf 這個漏洞本是2014年時候被人發現的,本著學習的目的,我來做個詳細的分析。漏洞雖然很早了,新版的Drupal甚至已經改變了框架的組織方式。但是絲毫不影響對於漏洞的分析。這是一

exchange報452 4.3.1 Insufficient system resources錯誤

Insufficient system system resources 問題描述:exchange收不到郵件,報452 4.3.1 Insufficient system resources錯誤。解決辦法:但是磁盤空間並沒有滿,確認後是因為Exchenge Server 2010引入了一項新功能:B

hadoop 3.1.1 單機集群配置/啟動問題的問題處理

mapr size iss specific onf keys property chm ctc 一.修改配置文件(hadoop目錄/etc/hadoop/配置文件) 1.修改hadoop-env.sh,指定JAVA_HOME 修改完畢後 2.修改core-site.x

Eclipse Maven 編譯錯誤 Dynamic Web Module 3.1 requires Java 1.7 or newer 解決方案

  1.開啟這個檢視,kanyi看一下javaSE版本 2.還錯把這個搞上去 <build>   <plugins>        <plugin>