核心API
新版本0.15。
本节介绍了Scrapy核心API,它面向扩展和中间件的开发人员。
履历API
Scrapy API的主要入口点是Crawler对象,通过from_crawler类方法传递给扩展。该对象提供对所有Scrapy核心组件的访问,它是扩展访问它们并将其功能挂钩到Scrapy中的唯一方法。
扩展管理器负责加载和跟踪已安装的扩展,并通过EXTENSIONS设置进行配置,该设置包含所有可用扩展名的字典,并且它们的顺序类似于如何配置下载器中间件。
class scrapy.crawler.Crawler(spidercls,settings)
履带对象必须用scrapy.spiders.Spider子类和scrapy.settings.Settings对象来实例化。
设置
此抓取工具的设置管理器。
扩展程序和中间件用于访问此爬网程序的Scrapy设置。
有关Scrapy设置的介绍,请参阅设置。
对于API,请参阅Settings类。
信号
这个爬虫的信号管理器。
这被扩展和中间件用于将自己挂钩到Scrapy功能。
有关信号的介绍,请参见信号。
对于API,请参阅SignalManager类。
统计
这个履带的统计收集器。
这是从扩展和中间件使用来记录其行为的统计信息,或访问由其他扩展收集的统计信息。
有关统计资料的介绍,请参阅Stats Collection。
对于API,请参阅StatsCollector类。
扩展
跟踪已启用的扩展的扩展管理器。
大多数扩展将不需要访问此属性。
有关扩展程序的介绍和Scrapy上的可用扩展名单,请参阅扩展。
发动机
执行引擎,协调调度程序,下载程序和蜘蛛之间的核心爬行逻辑。
某些扩展可能需要访问Scrapy引擎,以检查或修改下载程序和调度程序的行为,尽管这是高级用途,并且该API尚不稳定。
蜘蛛
蜘蛛目前正在爬行。这是构建爬网程序时提供的蜘蛛类的一个实例,它是在crawl()方法中给出的参数之后创建的。
爬行(* args,** kwargs)
通过使用给定的args和kwargs参数实例化其蜘蛛类,同时设置执行引擎,启动爬虫。
返回在抓取完成时触发的延迟。
class scrapy.crawler.CrawlerRunner(settings = None)
这是一个方便的助手类,可以跟踪,管理和运行已安装的Twisted反应器内的抓取工具。
CrawlerRunner对象必须使用Settings对象实例化。
不应该需要这个类(因为Scrapy负责相应地使用它),除非编写手动处理爬网过程的脚本。请参阅从脚本运行Scrapy作为示例。
抓取(crawler_or_spidercls,* args,** kwargs)
使用提供的参数运行爬网程序。
它将调用给定的Crawler的crawl()方法,同时跟踪它,以便稍后停止。
如果crawler_or_spidercls不是Crawler实例,则此方法将尝试使用此参数创建一个作为其给予的蜘蛛类。
返回在抓取完成时触发的延迟。
参数:
crawler_or_spidercls(Crawler实例,Spider子类或字符串) - 已创建的抓取工具,或项目中的蜘蛛类或蜘蛛名称来创建它
args(list) - 初始化蜘蛛的参数
kwargs(dict) - 初始化蜘蛛的关键字参数
爬虫
由crawl()启动的抓取工具集,由此类管理。
create_crawler(crawler_or_spidercls)
返回爬网程序对象。
如果crawler_or_spidercls是Crawler,则会按原样返回。
如果crawler_or_spidercls是Spider子类,则会为其构建一个新的Crawler。
如果crawler_or_spidercls是一个字符串,则此功能会在Scrapy项目(使用spider加载器)中找到具有此名称的蜘蛛,然后为其创建一个Crawler实例。
加入()
返回在所有托管抓取工具完成执行时触发的延迟。
停止()
同时停止发生的所有爬行工作。
返回在所有结束时触发的延迟。
class scrapy.crawler.CrawlerProcess(settings = None)
基础:scrapy.crawler.CrawlerRunner
一个同时在一个过程中运行多个刮板抓取器的类。
该类扩展了CrawlerRunner,通过添加支持启动Twisted电抗器并处理关闭信号,如键盘中断命令Ctrl-C。它还配置顶级日志记录。
如果您的应用程序中没有运行另一个Twisted反应器,则此实用程序应该比CrawlerRunner更合适。
必须使用Settings对象实例化CrawlerProcess对象。
不应该需要这个类(因为Scrapy负责相应地使用它),除非编写手动处理爬网过程的脚本。请参阅从脚本运行Scrapy作为示例。
抓取(crawler_or_spidercls,* args,** kwargs)
使用提供的参数运行爬网程序。
它将调用给定的Crawler的crawl()方法,同时跟踪它,以便稍后停止。
如果crawler_or_spidercls不是Crawler实例,则此方法将尝试使用此参数创建一个作为其给予的蜘蛛类。
返回在抓取完成时触发的延迟。
参数:
crawler_or_spidercls(Crawler实例,Spider子类或字符串) - 已创建的抓取工具,或项目中的蜘蛛类或蜘蛛名称来创建它
args(list) - 初始化蜘蛛的参数
kwargs(dict) - 初始化蜘蛛的关键字参数
爬虫
由crawl()启动的抓取工具集,由此类管理。
create_crawler(crawler_or_spidercls)
返回爬网程序对象。
如果crawler_or_spidercls是Crawler,则会按原样返回。
如果crawler_or_spidercls是Spider子类,则会为其构建一个新的Crawler。
如果crawler_or_spidercls是一个字符串,则此功能会在Scrapy项目(使用spider加载器)中找到具有此名称的蜘蛛,然后为其创建一个Crawler实例。
加入()
返回在所有托管抓取工具完成执行时触发的延迟。
开始(stop_after_crawl =真)
此方法启动Twisted反应器,将其大小调整为REACTOR_THREADPOOL_MAXSIZE,并根据DNSCACHE_ENABLED和DNSCACHE_SIZE安装DNS缓存。
如果stop_after_crawl为True,则在所有爬网程序完成后,使用join()将停止反应器。
参数:stop_after_crawl(boolean) - 当所有爬网程序完成时停止或停止反应器
停止()
同时停止发生的所有爬行工作。
返回在所有结束时触发的延迟。
设置API
scrapy.settings.SETTINGS_PRIORITIES
字典,设置Scrapy中使用的默认设置优先级的键名称和优先级。
每个项目定义一个设置入口点,为其提供用于标识的代码名称和整数优先级。在“设置”类中设置和检索值时,优先级要优于较小的优先级。
SETTINGS_PRIORITIES = {
'default':0,
'command':10,
'项目':20,
'蜘蛛':30,
'cmdline':40,
}
有关每个设置源的详细说明,请参阅:设置。
scrapy.settings.get_settings_priority(优先级)
小帮助函数在SETTINGS_PRIORITIES字典中查找给定的字符串优先级并返回其数值,或直接返回给定的数值优先级。
class scrapy.settings.Settings(values = None,priority ='project')
基数:scrapy.settings.BaseSettings
此对象存储用于配置内部组件的Scrapy设置,可用于任何进一步的定制。
它是一个直接的子类,支持BaseSettings的所有方法。此外,在实例化此类之后,新对象将具有已填充的内置设置引用中描述的全局默认设置。
class scrapy.settings.BaseSettings(values = None,priority ='project')
这个类的实例表现得像字典,但存储优先级及其(键,值)对,并且可以被冻结(即标记为不可变)。
键值条目可以使用values参数在初始化时传递,并且它们将占用优先级(除非值已经是BaseSettings的实例,在这种情况下将保留现有的优先级)。如果priority参数是字符串,则优先级名称将在SETTINGS_PRIORITIES中查找。否则,应提供一个特定的整数。
创建对象后,可以使用set()方法加载或更新新设置,并可使用字典的方括号表示法或实例的get()方法及其值转换变量进行访问。当请求存储的密钥时,将检索具有最高优先级的值。
复制()
深入了解当前设置。
此方法返回一个新的实例的Settings类,填充相同的值和它们的优先级。
对新对象的修改不会反映在原始设置上。
copy_to_dict()
制作当前设置的副本并转换为dict。
此方法返回一个新的dict,其中包含与当前设置相同的值及其优先级。
返回的dict的修改不会反映在原始设置上。
此方法可用于例如在Scrapy shell中打印设置。
冻结()
禁用对当前设置的进一步更改。
调用此方法后,设置的当前状态将变为不可变的。尝试通过set()方法及其变体来更改值将是不可能的,并将被提醒。
frozencopy()
返回当前设置的不可变副本。
由copy()返回的对象中的冻结()调用别名。
get(name,default = None)
获取设置值,而不会影响其原始类型。
参数:
name(string) - 设置名称
default(any) - 如果没有找到设置,返回的值
getbool(name,default = False)
获取设置值作为布尔值。
1,'1',True'和'True'返回True,而0,'0',False,'False'和None返回False。
例如,使用此方法时,通过环境变量设置为“0”的设置将返回False。
参数:
name(string) - 设置名称
default(any) - 如果没有找到设置,返回的值
getdict(name,default = None)
获取设置值作为字典。如果设置原始类型是字典,则将返回其副本。如果它是一个字符串,它将被评估为一个JSON字典。在它是一个BaseSettings实例本身的情况下,它将被转换为一个字典,其中包含所有当前的设置值,由get()返回,并丢失所有有关优先级和可变性的信息。
参数:
name(string) - 设置名称
default(any) - 如果没有找到设置,返回的值
getfloat(name,default = 0.0)
获取设置值作为浮点数。
参数:
name(string) - 设置名称
default(any) - 如果没有找到设置,返回的值
getint(name,default = 0)
获取设置值作为int。
参数:
name(string) - 设置名称
default(any) - 如果没有找到设置,返回的值
getlist(name,default = None)
获取设置值作为列表。如果设置原始类型是列表,则将返回其副本。如果它是一个字符串,它将被“,”分割。
例如,使用此方法时,环境变量设置为“一,二”的设置将返回一个列表['one','two']。
参数:
name(string) - 设置名称
default(any) - 如果没有找到设置,返回的值
getpriority(名称)
返回设置的当前数值优先级值,如果给定的名称不存在,则返回None。
参数:name(string) - 设置名称
getwithbase(名称)
获取类似字典的设置及其_BASE对应的组合。
参数:name(string) - 类似字典的设置的名称
maxpriority()
返回所有设置中最高优先级的数值,或者如果没有存储设置,则返回SETTINGS_PRIORITIES的默认值。
set(name,value,priority ='project')
存储具有给定优先级的键/值属性。
在配置Crawler对象(通过configure()方法)之前,应该填充设置,否则它们不会有任何影响。
参数:
name(string) - 设置名称
value(any) - 与设置关联的值
priority(string或int) - 设置的优先级。应该是SETTINGS_PRIORITIES的键或整数
setmodule(module,priority ='project')
从具有给定优先级的模块存储设置。
这是一个帮助函数,它为所有提供优先级的模块的每个全局声明的大写变量调用set()。
参数:
模块(模块对象或字符串) - 模块或模块的路径
priority(string或int) - 设置的优先级。应该是SETTINGS_PRIORITIES的键或整数
update(values,priority ='project')
存储具有给定优先级的键/值对。
这是一个帮助函数,它为每个具有提供优先级的值项调用set()。
如果值是一个字符串,则它被假定为JSON编码,并首先用json.loads()解析为dict。如果是BaseSettings实例,则将使用每个键优先级,并忽略优先级参数。这允许使用单个命令插入/更新具有不同优先级的设置。
参数:
值(dict或string或BaseSettings) - 设置名称和值
priority(string或int) - 设置的优先级。应该是SETTINGS_PRIORITIES的键或整数
SpiderLoader API
class scrapy.loader.SpiderLoader
该类负责检索和处理跨项目定义的蜘蛛类。
可以通过在SPIDER_LOADER_CLASS项目设置中指定其路径来使用自定义蜘蛛装载程序。他们必须完全实现scrapy.interfaces.ISpiderLoader接口,以保证无错执行。
from_settings(设置)
Scrapy使用此类方法来创建类的实例。它使用当前的项目设置进行调用,并将其在SPIDER_MODULES设置的模块中递归地加载蜘蛛。
参数:settings(设置实例) - 项目设置
负载(spider_name)
获取给定名称的Spider类。它将查找以前加载的蜘蛛,名为spider_name的蜘蛛类,如果未找到,将引发KeyError。
参数:spider_name(str) - 蜘蛛类名称
名单()
获取项目中可用的蜘蛛的名称。
find_by_request(请求)
列出可以处理给定请求的蜘蛛名称。将尝试将请求的网址与蜘蛛的域匹配。
参数:request(Request instance) - 查询请求
信号API
类scrapy.signalmanager.SignalManager(sender = _Anonymous)
连接(接收器,信号,** kwargs)
将接收机功能连接到信号。
信号可以是任何对象,尽管Scrapy带有一些在信号部分中记录的预定义信号。
参数:
接收器(可调用) - 要连接的功能
信号(对象) - 要连接的信号
断开(接收器,信号,** kwargs)
断开接收机功能与信号的连接。这与connect()方法相反,参数是相同的。
disconnect_all(signal,** kwargs)
断开所有接收器与给定信号的连接。
参数:signal(object) - 要断开的信号
send_catch_log(signal,** kwargs)
发送信号,捕获异常并记录它们。
关键字参数传递给信号处理程序(通过connect()方法连接)。
send_catch_log_deferred(signal,** kwargs)
像send_catch_log(),但支持从信号处理程序返回延期。
返回一旦所有信号处理程序延迟被触发,Deferred将被触发。发送信号,捕获异常并记录它们。
关键字参数传递给信号处理程序(通过connect()方法连接)。
统计收集器API
有几个Stats Collector可以在scrapy.statscollectors模块下使用,它们都实现了由StatsCollector类定义的Stats Collector API(它们都是从它们继承的)。
class scrapy.statscollectors.StatsCollector
get_value(key,default = None)
如果不存在,返回给定stats键的值或默认值。
get_stats()
从当前运行的蜘蛛获取所有统计数据作为dict。
set_value(key,value)
设置给定统计信息键的给定值。
set_stats(统计)
使用stats参数传递的dict来覆盖当前的统计信息。
inc_value(key,count = 1,start = 0)
以给定的计数,假定给定的起始值(当没有设置时)增加给定的统计数据值的值。
max_value(键值)
只有当相同键的当前值低于值时,才能为给定键设置给定值。如果给定键没有当前值,则始终设置该值。
min_value(键值)
只有当相同键的当前值大于值时,才能为给定键设置给定值。如果给定键没有当前值,则始终设置该值。
clear_stats()
清除所有统计资料
以下方法不是统计信息收集API的一部分,而是在实现自定义统计信息收集器时使用:
open_spider(蜘蛛)
打开给定的蜘蛛进行统计收集。
close_spider(蜘蛛)
关闭给定的蜘蛛。之后,没有更多的具体统计信息可以访问或收集。