💡WebScan功能介绍

模块功能介绍

scrapy模块主要功能是实现站点页面爬取,爬取该站点的所有url

  • 页面爬取

    • 可以手动添加多条起始url

    • 支持从起始url开始进行全站爬取

    • 支持自定义爬取深度

    • 支持设置域名限制

    • 设置响应等待时间

  • 应对反爬策略

    • 爬取延时时间设置

    • 添加IP代理池

    • 是否遵从robots.txt协议

    • 是否使用随机User-Agent头

    • cookie添加

spider在生成时接收两个初始化参数:

1.custom_settings单独对spider做一些系统上的设置

在Scrapy中,可以通过custom_settings属性来设置Spider的自定义配置。custom_settings属性是一个字典,可以包含一系列自定义配置项,用于覆盖全局配置或为特定Spider提供特定的配置。

使用custom_settings属性可以在Spider级别上为特定的Spider指定一些自定义配置项,而不影响其他Spider。这对于需要对不同Spider进行细粒度的配置非常有用。

以下是一些常见的自定义配置项,可以在custom_settings属性中设置:

  • DOWNLOAD_DELAY:设置请求之间的下载延迟,可以减缓爬取速度。

  • CONCURRENT_REQUESTS:同时发送的请求数量上限。

  • CONCURRENT_REQUESTS_PER_DOMAIN:每个域名下同时发送的请求数量上限。

  • CONCURRENT_REQUESTS_PER_IP:每个IP地址下同时发送的请求数量上限。

  • ROBOTSTXT_OBEY:是否遵守网站的robots.txt规则。

  • USER_AGENT:设置请求的User-Agent头。

  • random_ua

  • COOKIES_ENABLED:是否启用Cookies中间件,用于处理Cookie相关的功能。

  • ITEM_PIPELINES:指定数据处理管道的顺序和配置。

通过在Spider中设置custom_settings属性,可以在一定程度上覆盖Scrapy的默认配置,以适应特定Spider的需求。

传递格式如下:

settings = {
    'DOWNLOAD_DELAY': 2,
    'CONCURRENT_REQUESTS': 4,
    # 其他自定义配置项
}

spider = MySpider(custom_settings=settings)

Got 2 minutes? Check out a video overview of our product:

最后更新于