部署蜘蛛
本节介绍您部署Scrapy蜘蛛以定期运行它们的不同选项。在本地机器上运行Scrape蜘蛛对于(早期)开发阶段来说非常方便,但是当您需要执行长时间运行的蜘蛛或将蜘蛛连续运行时,并不会那么多。这是部署Scrapy蜘蛛的解决方案。
部署Scrapy蜘蛛的热门选择有:
Scrapyd(开源)
刮刮云(基于云)
部署到Scrapyd服务器
Scrapyd是运行Scrapy蜘蛛的开源应用程序。它为服务器提供了HTTP API,能够运行和监视Scrapy蜘蛛。
要将Spiders部署到Scrapyd,可以使用由scrapyd-client软件包提供的scrapyd-deploy工具。有关详细信息,请参阅scrapyd-deploy文档。
Scrapyd由一些Scrapy开发人员维护。
部署到刮草云
Scrapy Cloud是Scrapehub公司托管的基于云的服务。
Scrapy Cloud不需要设置和监视服务器,并提供了一个很好的UI来管理蜘蛛和查看已刮取的项目,日志和统计信息。
要将Spiders部署到Scrapy Cloud,您可以使用shub命令行工具。有关详细信息,请参阅Scrapy Cloud文档。
Scrapy Cloud与Scrapyd兼容,可以根据需要在它们之间进行切换 - 从scrapy.cfg文件读取配置,就像scratchyd-deploy一样。