LxmlLinkExtractor類參數解析

阿新 • • 發佈：2018-01-10

響應 selector ttr 規範化 urn def nco get 應用

LxmlLinkExtractor

LxmlLinkExtractor 是一種強大的鏈接提取器，使用他能很方便的進行選項過濾，他是通過xml中強大的HTMLParser實現的

源代碼如下：

class LxmlLinkExtractor(FilteringLinkExtractor):

    def __init__(self, allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths=(),
                 tags=(‘a‘, ‘area‘), attrs=(‘href‘,), canonicalize= 
False,
                 unique=True, process_value=None, deny_extensions=None, restrict_css=(),
                 strip=True):
    tags, attrs = set(arg_to_iter(tags)), set(arg_to_iter(attrs))
        tag_func = lambda x: x in tags
        attr_func = lambda x: x in attrs
        lx = LxmlParserLinkExtractor(
            tag= 
tag_func,
            attr=attr_func,
            unique=unique,
            process=process_value,
            strip=strip,
            canonicalized=canonicalize
        )

        super(LxmlLinkExtractor, self).__init__(lx, allow=allow, deny=deny,
            allow_domains=allow_domains, deny_domains= 
deny_domains,
            restrict_xpaths=restrict_xpaths, restrict_css=restrict_css,
            canonicalize=canonicalize, deny_extensions=deny_extensions)

    def extract_links(self, response):
        base_url = get_base_url(response)
        if self.restrict_xpaths:
            docs = [subdoc
                    for x in self.restrict_xpaths
                    for subdoc in response.xpath(x)]
        else:
            docs = [response.selector]
        all_links = []
        for doc in docs:
            links = self._extract_links(doc, response.url, response.encoding, base_url)
            all_links.extend(self._process_links(links))
        return unique_list(all_links)

參數說明：

allow=(一個正則表達式或者正則表達式的列表) 只有與之相匹配的url才能被提取出來
deny=(一個正則表達式或者正則表達式的列表) 一個正則表達式（或正則表達式列表），（絕對）urls必須匹配才能排除（即不提取）。它優先於allow參數。如果沒有給出（或為空），它不會排除任何鏈接。
allow_domains=(str或者list) 允許提取鏈接的域名的字符串列表或者單個字符串，例如：allow_domain = [‘baidu.com‘]則只能提取baidu.com的域名內的鏈接
deny_domains=() 與上述的意思剛剛相反
restrict_xpaths=(str或list) - 是一個XPath（或XPath的列表），它定義響應中應從中提取鏈接的區域。如果給出，只有那些XPath選擇的文本將被掃描鏈接。
targs=(‘a‘,‘area‘) 標簽或在提取鏈接時要考慮的標簽列表。默認為。(‘a‘, ‘area‘) 也就是默認只有a標簽與area標簽的鏈接才能被提取
attrs=(‘href‘,) 在查找要提取的鏈接時應該考慮的屬性或屬性列表（僅適用於參數中指定的那些標簽tags ）。默認為(‘href‘,)
cononicalize=(boolean) 規範化每個提取的url（使用w3lib.url.canonicalize_url）。默認為True。
unique=(boolean) 是否應對提取的鏈接應用重復過濾。
process_value=(callable) 接收從標簽提取的每個值和掃描的屬性並且可以修改值並返回新值的函數，或者返回None以完全忽略鏈接。如果沒有給出，那麽process_value默認為:lambda x:x
例如，要從此代碼中提取鏈接：
```
<a href="javascript:goToPage(‘../other/page.html‘); return false">Link text</a>
```
您可以使用以下功能process_value：
```
def process_value(value):
m = re.search("javascript:goToPage\(‘(.*?)‘", value)
if m:
    return m.group(1)
```
deny_extensions=(list) -包含在提取鏈接時應該忽略的擴展的單個值或字符串列表。如果沒有給出，它將默認為IGNORED_EXTENSIONS在scrapy.linkextractors包中定義的列表。
restrict_css=() 一個CSS選擇器（或選擇器列表），用於定義響應中應提取鏈接的區域。有相同的行為restrict_xpaths。
strip=

LxmlLinkExtractor類參數解析

響應 selector ttr 規範化 urn def nco get 應用 LxmlLinkExtractor LxmlLinkExtractor 是一種強大的鏈接提取器，使用他能很方便的進行選項過濾，他是通過xml中強大的HTMLParser實現的源代碼如下： cla

swagger生成接口文檔和map類型參數解析

get doc none agg for show 依賴接口 ica 一：swagger是什麽？ 1、是一款讓你更好的書寫API文檔的規範且完整框架。2、提供描述、生產、消費和可視化RESTful Web Service。3、是由龐大工具集合支撐的形式化規範。這個集合涵

linux kernel的cmdline參數解析原理分析

include 不知道方便個數 ram har mission handle leading 利用工作之便，今天研究了kernel下cmdline參數解析過程。記錄在此。與大家共享。轉載請註明出處。謝謝。Kernel 版本：3.4.55Kernel啟動時會解析cmdl

命令行參數解析

函數 con c庫命令行參數 style option 調用 sage clas 　　當我們使用linux系統下很多的命令時，會發現每個命令基本上都有很多的參數選項，這些參數提供給我們很多方便的功能。我們在設計自己的程序時，通常頁可以加入類似的功能，我們可以使用標準c庫中

cmake函數參數解析

遍歷 man 而在 taf get reac ... pre val 近期在遷移公司的make系統到cmake上。發現cmake的function參數非常奇怪。比如，假設我們向一個function傳遞list作為參數，在function中，形參會

linux內核啟動參數解析及添加

eric 一個 bsp 開始 boot 是不是重啟 uuid speed 1.環境: ubuntu16.04 Linux jello 4.4.0-89-generic #112-Ubuntu SMP Mon Jul 31 19:38:41 UTC 2017 x86_64

命令行參數解析(getopt函數使用)

const 給定 -s net 完成 get efault 全局 ons 部分轉自 http://blog.csdn.net/huangxiaohu_coder/article/details/7475156 感謝原作者。 1. getopt函數聲明 1 #inclu

命令行參數解析函數getopt和getopt_long函數【轉】

問題數組輸出流 include req pts 容易 -- 得到原文地址：http://blog.csdn.net/cashey1991/article/details/7942809 getopt和getopt_long函數平時在寫程序時常常需要對命令行參

【轉】編寫高質量代碼改善C#程序的157個建議——建議99：重寫時不應使用子類參數

bsp man stat pub ati lin set 薪水 col 建議99：重寫時不應使用子類參數重寫時，如果使用了子類參數，可能會偏離設計者的預期目標。比如，存在一個如下繼承體系： class Employee { } cl

參數解析函數getopt

def tde isp 參數正常 dem std break more 　　今天看到了遇到了一個很好的unix參數解析函數getopt()，記錄一下：函數原型 int getopt(int argc, char *const *argv, const char *op

SpringMVC源碼之參數解析綁定原理

apt mas release name sat apc 判斷 handler ade 摘要本文從源碼層面簡單講解SpringMVC的參數綁定原理 SpringMVC參數綁定相關組件的初始化過程在理解初始化之前，先來認識一個接口 HandlerMethodArg

Oracle11gR2--SEC_CASE_SENSITIVE_LOGON參數解析

erro data oracle led script href values ons real 在Oracle的11g之前的版本中密碼是不區分大小寫的（使用雙引號強制除外）。在Oracle的11g以及以後的版本中對此有所增強。從此密碼有了大小寫的區分。這個大小寫敏感特

Linux kernel 有關 spi 設備樹參數解析

-c enable pre ann driver error ola state AC 最近做了一個 spi 設備驅動從板級設備驅動升級到設備樹設備驅動，這其中要了解 spi 設備樹代碼的解析。設備樹配置如下： 503 &spi0 { 504 statu

zookeeper參數解析

zookeeper 1.initLimit：這個配置項是用來配置 Zookeeper 接受客戶端（這裏所說的客戶端不是用戶連接 Zookeeper 服務器的客戶端，而是 Zookeeper 服務器集群中連接到 Leader 的 Follower 服務器）初始化連接時最長能忍受多少個心跳時間間隔數。當已經超過

Session session = connection.createSession(paramA,paramB);參數解析

cli param false .html ransac 接收忽略 ted 模式 Session session = connection.createSession(paramA,paramB); paramA是設置事務，paramB是設置acknowledgment

url 參數解析成json格式

ava reac cti 需要 bstr 參數傳遞 key lpar json 在項目中遇到需要在不同頁面之間通過url參數傳遞數據，在其他頁面獲取到的數據的格式是index.html?name=‘sialia‘&age=18, 需要將參數處理成json格式，下面是

MYSQL連接字符串參數解析（解釋）

PE 都是 none use AR 字符 ignore utf8 initial 被迫轉到MySQL數據庫，發現讀取數據庫時，tinyint類型的值都被轉化為boolean了，這樣大於1的值都丟失，變成true了。查閱資料MySQL中無Boolean類型，都是存儲為ti

url中的查詢字符串的參數解析

substring ava nbsp UNC ring rgs component for循環 AR 1 <script> 2 // 查詢字符串函數location.search;"？q=javascript" 3 4 functio

JavaScript中replace()方法的第二個參數解析

lac code $2 search 第一個轉義情況第一次參數解析語法 string.replace(searchvalue,newvalue) 參數值 searchvalue 必須。規定子字符串或要替換的模式的 RegExp 對象。請註意，如果該值是一個

sysctl內核參數解析

設置內容接收 oracle數據庫 inux file 擁有推薦最大值 sysctl內核參數解析 kernel.參數 kernel.shmall = 2097152 ## 1> 表示所有內存大小。可以分配的所有共享內存段的總和最大值。（以頁為單位） ##

LxmlLinkExtractor類參數解析