我没有特定的代码问题,但我不确定如何使用Scrapy框架从逻辑上解决以下问题:
我要抓取的数据结构通常是每个项目的表格行。简单明了吧?
最终,我想为每一行抓取Title,Due Date和Details。 标题和截止日期立即在页面上显示…
但是Details本身不在表格中,而是指向包含详细信息的页面的链接(如果没有意义,请使用表格):
|-------------------------------------------------| | Title | Due Date | |-------------------------------------------------| | Job Title (Clickable Link) | 1/1/2012 | | Other Job (Link) | 3/2/2012 | |--------------------------------|----------------|
即使在阅读了Scrapy文档的CrawlSpider部分之后,我仍然不知道如何通过回调和请求在逻辑上传递该项目。
要抓取其他页面上的其他字段,请在parse方法中使用附加信息提取页面的URL,创建并从该parse方法返回具有该URL的Request对象,并通过其meta参数传递已提取的数据。
meta