開發(fā)環(huán)境：
Python 3.6.0 版本 （當(dāng)前最新）
Scrapy 1.3.2 版本 （當(dāng)前最新）

鏈接提取器

鏈接提取器是其唯一目的是從scrapy.http.Response最終將跟隨的網(wǎng)頁（對象）提取鏈接的對象。

有Scrapy，但你可以創(chuàng)建自己的自定義鏈接提取器，以滿足您的需求通??過實(shí)現(xiàn)一個簡單的界面。scrapy.linkextractors import LinkExtractor

每個鏈接提取器唯一的公共方法是extract_links接收一個Response對象并返回一個scrapy.link.Link對象列表。鏈接提取器意在被實(shí)例化一次，并且它們的extract_links方法被調(diào)用幾次，具有不同的響應(yīng)以提取跟隨的鏈接。

鏈接提取程序CrawlSpider 通過一組規(guī)則在類中使用（可以在Scrapy中使用），但是您也可以在爬蟲中使用它，即使不從其中CrawlSpider提取子類，因?yàn)槠淠康姆浅：唵危禾崛℃溄印?/p>

內(nèi)置鏈接提取器參考

scrapy.linkextractors模塊中提供了與Scrapy捆綁在一起的鏈接提取器類。

默認(rèn)的鏈接提取器是LinkExtractor，它是相同的 LxmlLinkExtractor：

from scrapy.linkextractors import LinkExtractor

以前的Scrapy版本中曾經(jīng)有過其他鏈接提取器類，但現(xiàn)在已經(jīng)過時了。

LxmlLinkExtractor

class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), restrict_css=(), tags=('a', 'area'), attrs=('href', ), canonicalize=True, unique=True, process_value=None)

LxmlLinkExtractor是推薦的鏈接提取器與方便的過濾選項(xiàng)。它使用lxml的強(qiáng)大的HTMLParser實(shí)現(xiàn)。

**參數(shù)： **

allow（正則表達(dá)式（或的列表）） - 一個單一的正則表達(dá)式（或正則表達(dá)式列表），（絕對）urls必須匹配才能提取。如果沒有給出（或?yàn)榭眨?，它將匹配所有鏈接?/li>
deny（正則表達(dá)式或正則表達(dá)式列表） - 一個正則表達(dá)式（或正則表達(dá)式列表），（絕對）urls必須匹配才能排除（即不提取）。它優(yōu)先于allow參數(shù)。如果沒有給出（或?yàn)榭眨粫懦魏捂溄印?/li>
allow_domains（str或list） - 單個值或包含將被考慮用于提取鏈接的域的字符串列表
deny_domains（str或list） - 單個值或包含不會被考慮用于提取鏈接的域的字符串列表
deny_extensions（list） - 包含在提取鏈接時應(yīng)該忽略的擴(kuò)展的單個值或字符串列表。如果沒有給出，它將默認(rèn)為IGNORED_EXTENSIONS在scrapy.linkextractors包中定義的列表。
restrict_xpaths（str或list） - 是一個XPath（或XPath的列表），它定義響應(yīng)中應(yīng)從中提取鏈接的區(qū)域。如果給出，只有那些XPath選擇的文本將被掃描鏈接。參見下面的例子。
restrict_css（str或list） - 一個CSS選擇器（或選擇器列表），用于定義響應(yīng)中應(yīng)提取鏈接的區(qū)域。有相同的行為restrict_xpaths。
標(biāo)簽（str或list） - 標(biāo)簽或在提取鏈接時要考慮的標(biāo)簽列表。默認(rèn)為。('a', 'area')
attrs（list） - 在查找要提取的鏈接時應(yīng)該考慮的屬性或?qū)傩粤斜恚▋H適用于參數(shù)中指定的那些標(biāo)簽tags ）。默認(rèn)為('href',)
canonicalize（boolean） - 規(guī)范化每個提取的url（使用w3lib.url.canonicalize_url）。默認(rèn)為True。
unique（boolean） - 是否應(yīng)對提取的鏈接應(yīng)用重復(fù)過濾。
process_value（callable） -
接收從標(biāo)簽提取的每個值和掃描的屬性并且可以修改值并返回新值的函數(shù)，或者返回None以完全忽略鏈接。如果沒有給出，process_value默認(rèn)為。lambda x: x

例如，要從此代碼中提取鏈接：

<a href="javascript:goToPage('../other/page.html'); return false">Link text</a>

您可以使用以下功能process_value：

def process_value(value):
    m = re.search("javascript:goToPage\('(.*?)'", value)
    if m:
        return m.group(1)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Scrapy爬蟲入門教程十二 Link Extractors（鏈接提取器）

Scrapy爬蟲入門教程十二 Link Extractors（鏈接提取器）

鏈接提取器

內(nèi)置鏈接提取器參考

LxmlLinkExtractor

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Scrapy爬蟲入門教程十二 Link Extractors（鏈接提取器）

鏈接提取器

內(nèi)置鏈接提取器參考

LxmlLinkExtractor

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av