Scrapy - Exportações de feed
Descrição
As exportações de feed são um método de armazenar os dados extraídos dos sites, que está gerando um "export file".
Formatos de serialização
Usando vários formatos de serialização e back-ends de armazenamento, as Exportações de feed usam exportadores de itens e geram um feed com itens raspados.
A seguinte tabela mostra os formatos suportados -
Sr. Não | Formato e descrição |
---|---|
1 | JSON FEED_FORMAT é json O exportador usado é a classe scrapy.exporters.JsonItemExporter |
2 | JSON lines FEED_FROMAT é jsonlines O exportador usado é a classe scrapy.exporters.JsonLinesItemExporter |
3 | CSV FEED_FORMAT é CSV O exportador usado é a classe scrapy.exporters.CsvItemExporter |
4 | XML FEED_FORMAT é xml O exportador usado é a classe scrapy.exporters.XmlItemExporter |
Usando FEED_EXPORTERS configurações, os formatos suportados também podem ser estendidos -
Sr. Não | Formato e descrição |
---|---|
1 | Pickle FEED_FORMAT é pickel O exportador usado é a classe scrapy.exporters.PickleItemExporter |
2 | Marshal FEED_FORMAT é marechal O exportador usado é a classe scrapy.exporters.MarshalItemExporter |
Back-ends de armazenamento
O back-end de armazenamento define onde armazenar o feed usando URI.
A tabela a seguir mostra os back-ends de armazenamento compatíveis -
Sr. Não | Back-end de armazenamento e descrição |
---|---|
1 | Local filesystem O esquema de URI é um arquivo e é usado para armazenar os feeds. |
2 | FTP O esquema de URI é ftp e é usado para armazenar os feeds. |
3 | S3 O esquema de URI é S3 e os feeds são armazenados no Amazon S3. Bibliotecas externas botocore ou boto são necessárias. |
4 | Standard output O esquema de URI é stdout e os feeds são armazenados na saída padrão. |
Parâmetros de URI de armazenamento
A seguir estão os parâmetros de URL de armazenamento, que são substituídos enquanto o feed está sendo criado -
- % (time) s: este parâmetro é substituído por um carimbo de data / hora.
- % (name) s: Este parâmetro é substituído pelo nome da aranha.
Configurações
A tabela a seguir mostra as configurações usando as quais as exportações de feed podem ser definidas -
Sr. Não | Configuração e descrição |
---|---|
1 | FEED_URI É o URI do feed de exportação usado para habilitar as exportações de feed. |
2 | FEED_FORMAT É um formato de serialização usado para o feed. |
3 | FEED_EXPORT_FIELDS É usado para definir campos que precisam ser exportados. |
4 | FEED_STORE_EMPTY Ele define se os feeds devem ser exportados sem itens. |
5 | FEED_STORAGES É um dicionário com back-ends de armazenamento de feed adicionais. |
6 | FEED_STORAGES_BASE É um dicionário com back-ends de armazenamento de feed integrados. |
7 | FEED_EXPORTERS É um dicionário com exportadores de alimentos adicionais. |
8 | FEED_EXPORTERS_BASE É um dicionário com exportadores de ração integrados. |