scrapy自动爬取站点所有超链接问题

网上资料存在着严重抄袭,然后一旦讲到LinkExtractor这块内容时都尼玛各自忽略了一点注意事项,导致我们照抄的代码无法自动爬取链接,这也真够蛋疼的。

scrapy也刚刚学,所以碰到这种情况,就自动进入了通宵找问题的循环中了,严重阻碍我们学习的道路。

我忽略的点是因为:定义class类没有继承CrawlSpider!

完整代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
# -*- coding: utf-8 -*-
import scrapy
import sys
from scrapy.http import Request
from scrapy.selector import Selector
from scrapy.spiders import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor
from gxm.items import buggingItem  


class ExampleSpider(CrawlSpider):
    name='example'
    allowed_domains = ['bugging.com.cn']
    start_urls = ['https://bugging.com.cn/2017/']
    rules=[
        Rule(LinkExtractor(),callback='parse_item',follow=True)
    ]
    def parse_item(self,response):
        sel = Selector(response)
        titles = sel.xpath('//h3/a/text()').extract()
        items = []
        for title in titles:
            item = buggingItem()
            item['title'] = title
            print title.encode('GBK')
            items.append(item)
        return items

望广大网友仔细仔细再仔细,我是最后无奈,手抄代码才发现这种根本不是问题的问题