Scrapy - Exportações de feed

Descrição

As exportações de feed são um método de armazenar os dados extraídos dos sites, que está gerando um "export file".

Formatos de serialização

Usando vários formatos de serialização e back-ends de armazenamento, as Exportações de feed usam exportadores de itens e geram um feed com itens raspados.

A seguinte tabela mostra os formatos suportados -

Sr. Não Formato e descrição
1

JSON

FEED_FORMAT é json

O exportador usado é a classe scrapy.exporters.JsonItemExporter

2

JSON lines

FEED_FROMAT é jsonlines

O exportador usado é a classe scrapy.exporters.JsonLinesItemExporter

3

CSV

FEED_FORMAT é CSV

O exportador usado é a classe scrapy.exporters.CsvItemExporter

4

XML

FEED_FORMAT é xml

O exportador usado é a classe scrapy.exporters.XmlItemExporter

Usando FEED_EXPORTERS configurações, os formatos suportados também podem ser estendidos -

Sr. Não Formato e descrição
1

Pickle

FEED_FORMAT é pickel

O exportador usado é a classe scrapy.exporters.PickleItemExporter

2

Marshal

FEED_FORMAT é marechal

O exportador usado é a classe scrapy.exporters.MarshalItemExporter

Back-ends de armazenamento

O back-end de armazenamento define onde armazenar o feed usando URI.

A tabela a seguir mostra os back-ends de armazenamento compatíveis -

Sr. Não Back-end de armazenamento e descrição
1

Local filesystem

O esquema de URI é um arquivo e é usado para armazenar os feeds.

2

FTP

O esquema de URI é ftp e é usado para armazenar os feeds.

3

S3

O esquema de URI é S3 e os feeds são armazenados no Amazon S3. Bibliotecas externas botocore ou boto são necessárias.

4

Standard output

O esquema de URI é stdout e os feeds são armazenados na saída padrão.

Parâmetros de URI de armazenamento

A seguir estão os parâmetros de URL de armazenamento, que são substituídos enquanto o feed está sendo criado -

  • % (time) s: este parâmetro é substituído por um carimbo de data / hora.
  • % (name) s: Este parâmetro é substituído pelo nome da aranha.

Configurações

A tabela a seguir mostra as configurações usando as quais as exportações de feed podem ser definidas -

Sr. Não Configuração e descrição
1

FEED_URI

É o URI do feed de exportação usado para habilitar as exportações de feed.

2

FEED_FORMAT

É um formato de serialização usado para o feed.

3

FEED_EXPORT_FIELDS

É usado para definir campos que precisam ser exportados.

4

FEED_STORE_EMPTY

Ele define se os feeds devem ser exportados sem itens.

5

FEED_STORAGES

É um dicionário com back-ends de armazenamento de feed adicionais.

6

FEED_STORAGES_BASE

É um dicionário com back-ends de armazenamento de feed integrados.

7

FEED_EXPORTERS

É um dicionário com exportadores de alimentos adicionais.

8

FEED_EXPORTERS_BASE

É um dicionário com exportadores de ração integrados.