Scrapy - Rastejando

Descrição

Para executar seu spider, execute o seguinte comando dentro do seu diretório first_scrapy -

scrapy crawl first

Onde, first é o nome da aranha especificada durante a criação da aranha.

Uma vez que a aranha rasteja, você pode ver a seguinte saída -

2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)
2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {}
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened
2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)

Como você pode ver na saída, para cada URL há uma linha de log que (referenciador: Nenhum) afirma que os URLs são URLs iniciais e não têm referenciadores. Em seguida, você deve ver dois novos arquivos chamados Books.html e Resources.html criados em seu diretório first_scrapy .

↰ Previous page Next page ↱