Scrapy 1.4 中文文档
本文档包含您需要了解的关于Scrapy的一切。
获得帮助
遇到麻烦?我们想帮忙!
- 尝试FAQ- 它有一些常见问题的答案。
- 寻找具体信息?尝试索引或模块索引。
- 使用scrapy标签在StackOverflow中提出或搜索问题。
- 在Scrapy subreddit中询问或搜索问题。
- 搜索关于scrapy-users邮件列表的档案的问题。
- 在#scrapy IRC频道中提出问题,
- 在我们的问题跟踪器中报告Scrapy的错误。
第一步
了解Scrapy是什么,以及如何帮助您。
在您的电脑上安装Scrapy
写你的第一个Scrapy项目。
使用预制的Scrapy项目了解更多信息。
基本概念
了解用于管理Scrapy项目的命令行工具。
编写规则以抓取您的网站。
使用XPath从网页中提取数据。
在交互式环境中测试您的提取代码。
定义要擦除的数据。
使用提取的数据填充您的项目。
后处理并存储您的数据。
使用不同的格式和存储输出您的刮削数据。
了解用于表示HTTP请求和响应的类。
方便的课程来提取从页面跟踪的链接。
了解如何配置Scrapy并查看所有可用的设置。
查看所有可用的异常及其含义。
内置服务
了解如何在Scrapy上使用Python的内置日志记录。
收集有关您的抓取抓取工具的统计信息。
发生特定事件时发送电子邮件通知。
使用内置的Python控制台检查正在运行的爬网程序。
使用Web服务监视和控制爬网程序。
解决具体问题
获取最常见问题的答案。
了解如何调试刮刀蜘蛛的常见问题。
了解如何使用合约来测试您的蜘蛛。
熟悉一些Scrapy常用做法。
调整Scrapy用于并行爬行很多域。
了解如何使用Firefox和一些有用的附加组件进行刮擦。
了解如何使用Firebug有效地刮擦。
了解如何查找并清除抓取工具中的内存泄漏。
下载与您的刮片相关联的文件和/或图像。
部署您的Scrapy蜘蛛并在远程服务器中运行它们。
根据负载动态调整抓取速率。
检查Scrapy如何在您的硬件上执行。
了解如何为大型蜘蛛暂停和恢复抓取。
扩展Scrapy
了解Scrapy架构。
自定义页面如何被请求和下载。
自定义您的蜘蛛的输入和输出。
使用您的自定义功能扩展Scrapy
在扩展程序和中间件上使用它来扩展Scrapy功能
查看所有可用信号以及如何使用它们。
快速导出您的刮取的项目到一个文件(XML,CSV等)。