我正在学习Scrapy一个Web爬网框架。 默认情况下,它不会抓取重复的网址或scrapy已经抓取的网址。
如何使Scrapy抓取重复的URL或已经抓取的URL? 我尝试在Internet上查找,但找不到相关的帮助。
我发现DUPEFILTER_CLASS = RFPDupeFilter和SgmlLinkExtractor自Scrapy-蜘蛛抓取重复网址,但这个问题是相反的我在寻找什么
DUPEFILTER_CLASS = RFPDupeFilter
SgmlLinkExtractor
Scrapy
你可能正在寻找关于的dont_filter=True论点Request()。
dont_filter=True论点Request()