Scrapy 1.4 中文文档

本文档包含您需要了解的关于Scrapy的一切。

获得帮助

遇到麻烦?我们想帮忙!

第一步

一目了然

了解Scrapy是什么,以及如何帮助您。

安装指南

在您的电脑上安装Scrapy

Scrapy教程

写你的第一个Scrapy项目。

例子

使用预制的Scrapy项目了解更多信息。

基本概念

命令行工具

了解用于管理Scrapy项目的命令行工具。

蜘蛛

编写规则以抓取您的网站。

选择

使用XPath从网页中提取数据。

刮壳

在交互式环境中测试您的提取代码。

项目

定义要擦除的数据。

货物装载机

使用提取的数据填充您的项目。

物品管道

后处理并存储您的数据。

饲料出口

使用不同的格式和存储输出您的刮削数据。

请求和回复

了解用于表示HTTP请求和响应的类。

链接提取器

方便的课程来提取从页面跟踪的链接。

设置

了解如何配置Scrapy并查看所有可用的设置

例外

查看所有可用的异常及其含义。

内置服务

记录

了解如何在Scrapy上使用Python的内置日志记录。

统计收藏

收集有关您的抓取抓取工具的统计信息。

发送电子邮件

发生特定事件时发送电子邮件通知。

Telnet控制台

使用内置的Python控制台检查正在运行的爬网程序。

网络服务

使用Web服务监视和控制爬网程序。

解决具体问题

经常问的问题

获取最常见问题的答案。

调试蜘蛛

了解如何调试刮刀蜘蛛的常见问题。

蜘蛛合同

了解如何使用合约来测试您的蜘蛛。

常见做法

熟悉一些Scrapy常用做法。

广泛抓取

调整Scrapy用于并行爬行很多域。

使用Firefox进行刮擦

了解如何使用Firefox和一些有用的附加组件进行刮擦。

使用Firebug刮

了解如何使用Firebug有效地刮擦。

调试内存泄漏

了解如何查找并清除抓取工具中的内存泄漏。

下载和处理文件和图像

下载与您的刮片相关联的文件和/或图像。

部署蜘蛛

部署您的Scrapy蜘蛛并在远程服务器中运行它们。

AutoThrottle扩展

根据负载动态调整抓取速率。

标杆

检查Scrapy如何在您的硬件上执行。

作业:暂停并恢复抓取

了解如何为大型蜘蛛暂停和恢复抓取。

扩展Scrapy

架构概述

了解Scrapy架构。

下载中间件

自定义页面如何被请求和下载。

Spider中间件

自定义您的蜘蛛的输入和输出。

扩展

使用您的自定义功能扩展Scrapy

核心API

在扩展程序和中间件上使用它来扩展Scrapy功能

信号

查看所有可用信号以及如何使用它们。

物品出口商

快速导出您的刮取的项目到一个文件(XML,CSV等)。

results matching ""

    No results matching ""