1. 程式人生 > >前嗅ForeSpider指令碼教程:連結過濾指令碼

前嗅ForeSpider指令碼教程:連結過濾指令碼

開發十年,就只剩下這套架構體系了! >>>   

連結過濾指令碼是地址和標題過濾中的指令碼, 過濾型別必須選擇指令碼過濾時過濾指令碼才能生效,過濾指令碼用於處理複雜的連結或標題過濾需求。

一.可用全域性物件(只讀)

EXTRACT: 當前採集引擎[ 物件型別: extractor ]

DATADB: 當前連線的資料庫[ 物件型別: dataBase ]

RESULT: 當前結果集物件[ 物件型別: result ]

URL: 當前採集的連結物件[ 物件型別: url ]

URLTEXT : 描述當前連結採集的所有狀態及屬性的物件[ 物件型別: urltext ]

DOC: 當前採集的文件物件[ 物件型別: grabDoc ]

DOM: 當前採集文件的dom物件[ 物件型別: dom ]

ITEM: 當前連結dom樹的href標籤節點[ 物件型別: domItem ]

TMPL: 當前文件模板物件[ 物件型別: tmplTmpl ]

LINK:當前連結抽取物件[ 物件型別: tmplLink ]

VALUE:當前被過濾的字串[ 物件型別: string ]

二.this物件

當前連結過濾[tmplFilter]物件。

三.指令碼返回值

返回非0保留,否則過濾。

示例:

1.以下指令碼過濾空白連結:

if(VALUE)

return true;

else return false;

2.【標題過濾】以下指令碼過濾標題的長度小於5個字元的連結:

if(VALUE.length>=5)

return true;