Telnet控制台
Scrapy配有一个内置的telnet控制台,用于检查和控制Scrapy运行过程。 telnet控制台只是一个在Scrapy进程中运行的常规python shell,所以你可以从字面上做任何事情。
telnet控制台是内置的Scrapy扩展,默认情况下启用,但如果需要,也可以禁用它。有关扩展本身的更多信息,请参阅Telnet控制台扩展。
如何访问telnet控制台
telnet控制台侦听TELNETCONSOLE_PORT设置中定义的TCP端口,默认为6023.要访问控制台,您需要键入:
telnet localhost 6023
>>>
您需要在Windows中默认安装的telnet程序,以及大多数Linux发行版。
telnet控制台中的可用变量
telnet控制台就像在Scrapy进程中运行的常规Python外壳,所以您可以从中进行任何操作,包括导入新模块等。
但是,telnet控制台提供了一些为方便起见定义的默认变量:
快捷键说明
履带式爬行爬行器(scrapy.crawler.Crawler对象)
引擎Crawler.engine属性
蜘蛛活跃的蜘蛛
插槽引擎槽
扩展扩展管理器(Crawler.extensions属性)
统计Stats Collector(Crawler.stats属性)
设置Scrapy设置对象(Crawler.settings属性)
请打印发动机状态的报告
预置内存调试(请参阅调试内存泄漏)
p是pprint.pprint函数的快捷方式
hpy用于内存调试(请参阅调试内存泄漏)
Telnet控制台使用示例
以下是您可以使用telnet控制台执行的一些示例任务:
查看引擎状态
您可以使用Scrapy引擎的est()方法使用telnet控制台快速显示其状态:
telnet localhost 6023
>>> est()
Execution engine status
time()-engine.start_time : 8.62972998619
engine.has_capacity() : False
len(engine.downloader.active) : 16
engine.scraper.is_idle() : False
engine.spider.name : followall
engine.spider_is_idle(engine.spider) : False
engine.slot.closing : False
len(engine.slot.inprogress) : 16
len(engine.slot.scheduler.dqs or []) : 0
len(engine.slot.scheduler.mqs) : 92
len(engine.scraper.slot.queue) : 0
len(engine.scraper.slot.active) : 0
engine.scraper.slot.active_size : 0
engine.scraper.slot.itemproc_size : 0
engine.scraper.slot.needs_backout() : False
暂停,恢复和停止Scrapy引擎
暂停:
telnet localhost 6023
>>> engine.pause()
>>>
恢复:
telnet localhost 6023
>>> engine.unpause()
>>>
停止:
telnet localhost 6023
>>> engine.stop()
Connection closed by foreign host.
Telnet控制台信号
scrapy.extensions.telnet.update_telnet_vars(telnet_vars)
在telnet控制台打开之前发送。您可以连接此信号来添加,删除或更新telnet本地命名空间中可用的变量。为了做到这一点,你需要更新你的处理程序中的telnet_vars dict。
参数:telnet_vars(dict) - telnet变量的dict
Telnet设置
这些是控制telnet控制台行为的设置:
TELNETCONSOLE_PORT
默认值:[6023,6073]
用于telnet控制台的端口范围。如果设置为None或0,则使用动态分配的端口。
TELNETCONSOLE_HOST
默认值:'127.0.0.1'
telnet控制台应该监听的接口