部署蜘蛛

本节介绍您部署Scrapy蜘蛛以定期运行它们的不同选项。在本地机器上运行Scrape蜘蛛对于(早期)开发阶段来说非常方便,但是当您需要执行长时间运行的蜘蛛或将蜘蛛连续运行时,并不会那么多。这是部署Scrapy蜘蛛的解决方案。

部署Scrapy蜘蛛的热门选择有:

Scrapyd(开源)

刮刮云(基于云)

部署到Scrapyd服务器

Scrapyd是运行Scrapy蜘蛛的开源应用程序。它为服务器提供了HTTP API,能够运行和监视Scrapy蜘蛛。

要将Spiders部署到Scrapyd,可以使用由scrapyd-client软件包提供的scrapyd-deploy工具。有关详细信息,请参阅scrapyd-deploy文档。

Scrapyd由一些Scrapy开发人员维护。

部署到刮草云

Scrapy Cloud是Scrapehub公司托管的基于云的服务。

Scrapy Cloud不需要设置和监视服务器,并提供了一个很好的UI来管理蜘蛛和查看已刮取的项目,日志和统计信息。

要将Spiders部署到Scrapy Cloud,您可以使用shub命令行工具。有关详细信息,请参阅Scrapy Cloud文档。

Scrapy Cloud与Scrapyd兼容,可以根据需要在它们之间进行切换 - 从scrapy.cfg文件读取配置,就像scratchyd-deploy一样。

results matching ""

    No results matching ""