Scrapy - Outras configurações

A tabela a seguir mostra outras configurações de Scrapy -

Sr. Não Configuração e descrição
1

AJAXCRAWL_ENABLED

É usado para permitir grandes rastreamentos.

Valor padrão: False

2

AUTOTHROTTLE_DEBUG

É habilitado para ver como os parâmetros de estrangulamento são ajustados em tempo real, o que exibe estatísticas em cada resposta recebida.

Valor padrão: False

3

AUTOTHROTTLE_ENABLED

É usado para habilitar a extensão AutoThrottle.

Valor padrão: False

4

AUTOTHROTTLE_MAX_DELAY

É usado para definir o atraso máximo para download em caso de latências altas.

Valor padrão: 60,0

5

AUTOTHROTTLE_START_DELAY

É usado para definir o atraso inicial para download.

Valor padrão: 5,0

6

AUTOTHROTTLE_TARGET_CONCURRENCY

Ele define o número médio de solicitações de um Scrapy para enviar paralelamente a sites remotos.

Valor padrão: 1.0

7

CLOSESPIDER_ERRORCOUNT

Ele define o número total de erros que devem ser recebidos antes que o spider seja fechado.

Valor padrão: 0

8

CLOSESPIDER_ITEMCOUNT

Ele define um número total de itens antes de fechar a aranha.

Valor padrão: 0

9

CLOSESPIDER_PAGECOUNT

Ele define o número máximo de respostas a serem rastreadas antes que o spider feche.

Valor padrão: 0

10

CLOSESPIDER_TIMEOUT

Ele define a quantidade de tempo (em segundos) para uma aranha fechar.

Valor padrão: 0

11

COMMANDS_MODULE

É usado quando você deseja adicionar comandos personalizados em seu projeto.

Valor padrão: ''

12

COMPRESSION_ENABLED

Indica que o middleware de compactação está ativado.

Valor padrão: True

13

COOKIES_DEBUG

Se definido como verdadeiro, todos os cookies enviados em solicitações e recebidos em respostas são registrados.

Valor padrão: False

14

COOKIES_ENABLED

Indica que o middleware de cookies está habilitado e enviado para servidores web.

Valor padrão: True

15

FILES_EXPIRES

Ele define o atraso para a expiração do arquivo.

Valor padrão: 90 dias

16

FILES_RESULT_FIELD

É definido quando você deseja usar outros nomes de campo para seus arquivos processados.

17

FILES_STORE

Ele é usado para armazenar os arquivos baixados, definindo-o com um valor válido.

18

FILES_STORE_S3_ACL

É usado para modificar a política ACL para os arquivos armazenados no bucket do Amazon S3.

Valor padrão: privado

19

FILES_URLS_FIELD

É definido quando você deseja usar outro nome de campo para os URLs dos seus arquivos.

20

HTTPCACHE_ALWAYS_STORE

O Spider irá armazenar em cache as páginas completamente se esta configuração estiver habilitada.

Valor padrão: False

21

HTTPCACHE_DBM_MODULE

É um módulo de banco de dados usado no back-end de armazenamento DBM.

Valor padrão: 'anydbm'

22

HTTPCACHE_DIR

É um diretório usado para habilitar e armazenar o cache HTTP.

Valor padrão: 'httpcache'

23

HTTPCACHE_ENABLED

Indica que o cache HTTP está habilitado.

Valor padrão: False

24

HTTPCACHE_EXPIRATION_SECS

É usado para definir o tempo de expiração do cache HTTP.

Valor padrão: 0

25

HTTPCACHE_GZIP

Se esta configuração for definida como verdadeira, todos os dados em cache serão compactados com gzip.

Valor padrão: False

26

HTTPCACHE_IGNORE_HTTP_CODES

Ele afirma que as respostas HTTP não devem ser armazenadas em cache com códigos HTTP.

Valor padrão: []

27

HTTPCACHE_IGNORE_MISSING

Esta configuração, se habilitada, as solicitações serão ignoradas se não forem encontradas no cache.

Valor padrão: False

28

HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS

É uma lista contendo controles de cache a serem ignorados.

Valor padrão: []

29

HTTPCACHE_IGNORE_SCHEME

Ele afirma que as respostas HTTP não devem ser armazenadas em cache com esquemas de URI.

Valor padrão: ['arquivo']

30

HTTPCACHE_POLICY

Ele define uma política de cache de implementação de classe.

Valor padrão: 'scrapy.extensions.httpcache.DummyPolicy'

31

HTTPCACHE_STORAGE

É uma classe que implementa o armazenamento em cache.

Valor padrão: 'scrapy.extensions.httpcache.FilesystemCacheStorage'

32

HTTPERROR_ALLOWED_CODES

É uma lista onde todas as respostas são passadas com códigos de status diferentes de 200.

Valor padrão: []

33

HTTPERROR_ALLOW_ALL

Esta configuração, quando ativada, todas as respostas são passadas, independentemente de seus códigos de status.

Valor padrão: False

34

HTTPPROXY_AUTH_ENCODING

Ele é usado para autenticar o proxy em HttpProxyMiddleware .

Valor padrão: "latin-1"

35

IMAGES_EXPIRES

Define o atraso para a expiração das imagens.

Valor padrão: 90 dias

36

IMAGES_MIN_HEIGHT

É usado para descartar imagens muito pequenas usando o tamanho mínimo.

37

IMAGES_MIN_WIDTH

É usado para descartar imagens muito pequenas usando o tamanho mínimo.

38

IMAGES_RESULT_FIELD

É definido quando você deseja usar outro nome de campo para suas imagens processadas.

39

IMAGES_STORE

Ele é usado para armazenar as imagens baixadas, definindo-as com um valor válido.

40

IMAGES_STORE_S3_ACL

É usado para modificar a política de ACL para as imagens armazenadas no bucket do Amazon S3.

Valor padrão: privado

41

IMAGES_THUMBS

Ele é configurado para criar as miniaturas das imagens baixadas.

42

IMAGES_URLS_FIELD

É definido quando você deseja usar outro nome de campo para seus URLs de imagens.

43

MAIL_FROM

O remetente usa essa configuração para enviar os e-mails.

Valor padrão: 'scrapy @ localhost'

44

MAIL_HOST

É um host SMTP usado para enviar e-mails.

Valor padrão: 'localhost'

45

MAIL_PASS

É uma senha usada para autenticar o SMTP.

Valor padrão: Nenhum

46

MAIL_PORT

É uma porta SMTP usada para enviar e-mails.

Valor padrão: 25

47

MAIL_SSL

Ele é usado para implementar a conexão usando uma conexão criptografada SSL.

Valor padrão: False

48

MAIL_TLS

Quando ativado, ele força a conexão usando STARTTLS.

Valor padrão: False

49

MAIL_USER

Ele define um usuário para autenticar o SMTP.

Valor padrão: Nenhum

50

METAREFRESH_ENABLED

Indica que o middleware de atualização meta está ativado.

Valor padrão: True

51

METAREFRESH_MAXDELAY

É um atraso máximo para uma meta-atualização redirecionar.

Valor padrão: 100

52

REDIRECT_ENABLED

Indica que o middleware de redirecionamento está ativado.

Valor padrão: True

53

REDIRECT_MAX_TIMES

Ele define o número máximo de vezes que uma solicitação deve ser redirecionada.

Valor padrão: 20

54

REFERER_ENABLED

Indica que o middleware do referenciador está ativado.

Valor padrão: True

55

RETRY_ENABLED

Indica que o middleware de nova tentativa está ativado.

Valor padrão: True

56

RETRY_HTTP_CODES

Ele define quais códigos HTTP devem ser tentados novamente.

Valor padrão: [500, 502, 503, 504, 408]

57

RETRY_TIMES

Ele define o número máximo de vezes para nova tentativa.

Valor padrão: 2

58

TELNETCONSOLE_HOST

Ele define uma interface na qual o console telnet deve escutar.

Valor padrão: '127.0.0.1'

59

TELNETCONSOLE_PORT

Ele define uma porta a ser usada para o console telnet.

Valor padrão: [6023, 6073]