Scrapy - Outras configurações
A tabela a seguir mostra outras configurações de Scrapy -
Sr. Não | Configuração e descrição |
---|---|
1 | AJAXCRAWL_ENABLED É usado para permitir grandes rastreamentos. Valor padrão: False |
2 | AUTOTHROTTLE_DEBUG É habilitado para ver como os parâmetros de estrangulamento são ajustados em tempo real, o que exibe estatísticas em cada resposta recebida. Valor padrão: False |
3 | AUTOTHROTTLE_ENABLED É usado para habilitar a extensão AutoThrottle. Valor padrão: False |
4 | AUTOTHROTTLE_MAX_DELAY É usado para definir o atraso máximo para download em caso de latências altas. Valor padrão: 60,0 |
5 | AUTOTHROTTLE_START_DELAY É usado para definir o atraso inicial para download. Valor padrão: 5,0 |
6 | AUTOTHROTTLE_TARGET_CONCURRENCY Ele define o número médio de solicitações de um Scrapy para enviar paralelamente a sites remotos. Valor padrão: 1.0 |
7 | CLOSESPIDER_ERRORCOUNT Ele define o número total de erros que devem ser recebidos antes que o spider seja fechado. Valor padrão: 0 |
8 | CLOSESPIDER_ITEMCOUNT Ele define um número total de itens antes de fechar a aranha. Valor padrão: 0 |
9 | CLOSESPIDER_PAGECOUNT Ele define o número máximo de respostas a serem rastreadas antes que o spider feche. Valor padrão: 0 |
10 | CLOSESPIDER_TIMEOUT Ele define a quantidade de tempo (em segundos) para uma aranha fechar. Valor padrão: 0 |
11 | COMMANDS_MODULE É usado quando você deseja adicionar comandos personalizados em seu projeto. Valor padrão: '' |
12 | COMPRESSION_ENABLED Indica que o middleware de compactação está ativado. Valor padrão: True |
13 | COOKIES_DEBUG Se definido como verdadeiro, todos os cookies enviados em solicitações e recebidos em respostas são registrados. Valor padrão: False |
14 | COOKIES_ENABLED Indica que o middleware de cookies está habilitado e enviado para servidores web. Valor padrão: True |
15 | FILES_EXPIRES Ele define o atraso para a expiração do arquivo. Valor padrão: 90 dias |
16 | FILES_RESULT_FIELD É definido quando você deseja usar outros nomes de campo para seus arquivos processados. |
17 | FILES_STORE Ele é usado para armazenar os arquivos baixados, definindo-o com um valor válido. |
18 | FILES_STORE_S3_ACL É usado para modificar a política ACL para os arquivos armazenados no bucket do Amazon S3. Valor padrão: privado |
19 | FILES_URLS_FIELD É definido quando você deseja usar outro nome de campo para os URLs dos seus arquivos. |
20 | HTTPCACHE_ALWAYS_STORE O Spider irá armazenar em cache as páginas completamente se esta configuração estiver habilitada. Valor padrão: False |
21 | HTTPCACHE_DBM_MODULE É um módulo de banco de dados usado no back-end de armazenamento DBM. Valor padrão: 'anydbm' |
22 | HTTPCACHE_DIR É um diretório usado para habilitar e armazenar o cache HTTP. Valor padrão: 'httpcache' |
23 | HTTPCACHE_ENABLED Indica que o cache HTTP está habilitado. Valor padrão: False |
24 | HTTPCACHE_EXPIRATION_SECS É usado para definir o tempo de expiração do cache HTTP. Valor padrão: 0 |
25 | HTTPCACHE_GZIP Se esta configuração for definida como verdadeira, todos os dados em cache serão compactados com gzip. Valor padrão: False |
26 | HTTPCACHE_IGNORE_HTTP_CODES Ele afirma que as respostas HTTP não devem ser armazenadas em cache com códigos HTTP. Valor padrão: [] |
27 | HTTPCACHE_IGNORE_MISSING Esta configuração, se habilitada, as solicitações serão ignoradas se não forem encontradas no cache. Valor padrão: False |
28 | HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS É uma lista contendo controles de cache a serem ignorados. Valor padrão: [] |
29 | HTTPCACHE_IGNORE_SCHEME Ele afirma que as respostas HTTP não devem ser armazenadas em cache com esquemas de URI. Valor padrão: ['arquivo'] |
30 | HTTPCACHE_POLICY Ele define uma política de cache de implementação de classe. Valor padrão: 'scrapy.extensions.httpcache.DummyPolicy' |
31 | HTTPCACHE_STORAGE É uma classe que implementa o armazenamento em cache. Valor padrão: 'scrapy.extensions.httpcache.FilesystemCacheStorage' |
32 | HTTPERROR_ALLOWED_CODES É uma lista onde todas as respostas são passadas com códigos de status diferentes de 200. Valor padrão: [] |
33 | HTTPERROR_ALLOW_ALL Esta configuração, quando ativada, todas as respostas são passadas, independentemente de seus códigos de status. Valor padrão: False |
34 | HTTPPROXY_AUTH_ENCODING Ele é usado para autenticar o proxy em HttpProxyMiddleware . Valor padrão: "latin-1" |
35 | IMAGES_EXPIRES Define o atraso para a expiração das imagens. Valor padrão: 90 dias |
36 | IMAGES_MIN_HEIGHT É usado para descartar imagens muito pequenas usando o tamanho mínimo. |
37 | IMAGES_MIN_WIDTH É usado para descartar imagens muito pequenas usando o tamanho mínimo. |
38 | IMAGES_RESULT_FIELD É definido quando você deseja usar outro nome de campo para suas imagens processadas. |
39 | IMAGES_STORE Ele é usado para armazenar as imagens baixadas, definindo-as com um valor válido. |
40 | IMAGES_STORE_S3_ACL É usado para modificar a política de ACL para as imagens armazenadas no bucket do Amazon S3. Valor padrão: privado |
41 | IMAGES_THUMBS Ele é configurado para criar as miniaturas das imagens baixadas. |
42 | IMAGES_URLS_FIELD É definido quando você deseja usar outro nome de campo para seus URLs de imagens. |
43 | MAIL_FROM O remetente usa essa configuração para enviar os e-mails. Valor padrão: 'scrapy @ localhost' |
44 | MAIL_HOST É um host SMTP usado para enviar e-mails. Valor padrão: 'localhost' |
45 | MAIL_PASS É uma senha usada para autenticar o SMTP. Valor padrão: Nenhum |
46 | MAIL_PORT É uma porta SMTP usada para enviar e-mails. Valor padrão: 25 |
47 | MAIL_SSL Ele é usado para implementar a conexão usando uma conexão criptografada SSL. Valor padrão: False |
48 | MAIL_TLS Quando ativado, ele força a conexão usando STARTTLS. Valor padrão: False |
49 | MAIL_USER Ele define um usuário para autenticar o SMTP. Valor padrão: Nenhum |
50 | METAREFRESH_ENABLED Indica que o middleware de atualização meta está ativado. Valor padrão: True |
51 | METAREFRESH_MAXDELAY É um atraso máximo para uma meta-atualização redirecionar. Valor padrão: 100 |
52 | REDIRECT_ENABLED Indica que o middleware de redirecionamento está ativado. Valor padrão: True |
53 | REDIRECT_MAX_TIMES Ele define o número máximo de vezes que uma solicitação deve ser redirecionada. Valor padrão: 20 |
54 | REFERER_ENABLED Indica que o middleware do referenciador está ativado. Valor padrão: True |
55 | RETRY_ENABLED Indica que o middleware de nova tentativa está ativado. Valor padrão: True |
56 | RETRY_HTTP_CODES Ele define quais códigos HTTP devem ser tentados novamente. Valor padrão: [500, 502, 503, 504, 408] |
57 | RETRY_TIMES Ele define o número máximo de vezes para nova tentativa. Valor padrão: 2 |
58 | TELNETCONSOLE_HOST Ele define uma interface na qual o console telnet deve escutar. Valor padrão: '127.0.0.1' |
59 | TELNETCONSOLE_PORT Ele define uma porta a ser usada para o console telnet. Valor padrão: [6023, 6073] |