Scrapy - Outras configurações
A tabela a seguir mostra outras configurações de Scrapy -
| Sr. Não | Configuração e descrição |
|---|---|
| 1 | AJAXCRAWL_ENABLED É usado para permitir grandes rastreamentos. Valor padrão: False |
| 2 | AUTOTHROTTLE_DEBUG É habilitado para ver como os parâmetros de estrangulamento são ajustados em tempo real, o que exibe estatísticas em cada resposta recebida. Valor padrão: False |
| 3 | AUTOTHROTTLE_ENABLED É usado para habilitar a extensão AutoThrottle. Valor padrão: False |
| 4 | AUTOTHROTTLE_MAX_DELAY É usado para definir o atraso máximo para download em caso de latências altas. Valor padrão: 60,0 |
| 5 | AUTOTHROTTLE_START_DELAY É usado para definir o atraso inicial para download. Valor padrão: 5,0 |
| 6 | AUTOTHROTTLE_TARGET_CONCURRENCY Ele define o número médio de solicitações de um Scrapy para enviar paralelamente a sites remotos. Valor padrão: 1.0 |
| 7 | CLOSESPIDER_ERRORCOUNT Ele define o número total de erros que devem ser recebidos antes que o spider seja fechado. Valor padrão: 0 |
| 8 | CLOSESPIDER_ITEMCOUNT Ele define um número total de itens antes de fechar a aranha. Valor padrão: 0 |
| 9 | CLOSESPIDER_PAGECOUNT Ele define o número máximo de respostas a serem rastreadas antes que o spider feche. Valor padrão: 0 |
| 10 | CLOSESPIDER_TIMEOUT Ele define a quantidade de tempo (em segundos) para uma aranha fechar. Valor padrão: 0 |
| 11 | COMMANDS_MODULE É usado quando você deseja adicionar comandos personalizados em seu projeto. Valor padrão: '' |
| 12 | COMPRESSION_ENABLED Indica que o middleware de compactação está ativado. Valor padrão: True |
| 13 | COOKIES_DEBUG Se definido como verdadeiro, todos os cookies enviados em solicitações e recebidos em respostas são registrados. Valor padrão: False |
| 14 | COOKIES_ENABLED Indica que o middleware de cookies está habilitado e enviado para servidores web. Valor padrão: True |
| 15 | FILES_EXPIRES Ele define o atraso para a expiração do arquivo. Valor padrão: 90 dias |
| 16 | FILES_RESULT_FIELD É definido quando você deseja usar outros nomes de campo para seus arquivos processados. |
| 17 | FILES_STORE Ele é usado para armazenar os arquivos baixados, definindo-o com um valor válido. |
| 18 | FILES_STORE_S3_ACL É usado para modificar a política ACL para os arquivos armazenados no bucket do Amazon S3. Valor padrão: privado |
| 19 | FILES_URLS_FIELD É definido quando você deseja usar outro nome de campo para os URLs dos seus arquivos. |
| 20 | HTTPCACHE_ALWAYS_STORE O Spider irá armazenar em cache as páginas completamente se esta configuração estiver habilitada. Valor padrão: False |
| 21 | HTTPCACHE_DBM_MODULE É um módulo de banco de dados usado no back-end de armazenamento DBM. Valor padrão: 'anydbm' |
| 22 | HTTPCACHE_DIR É um diretório usado para habilitar e armazenar o cache HTTP. Valor padrão: 'httpcache' |
| 23 | HTTPCACHE_ENABLED Indica que o cache HTTP está habilitado. Valor padrão: False |
| 24 | HTTPCACHE_EXPIRATION_SECS É usado para definir o tempo de expiração do cache HTTP. Valor padrão: 0 |
| 25 | HTTPCACHE_GZIP Se esta configuração for definida como verdadeira, todos os dados em cache serão compactados com gzip. Valor padrão: False |
| 26 | HTTPCACHE_IGNORE_HTTP_CODES Ele afirma que as respostas HTTP não devem ser armazenadas em cache com códigos HTTP. Valor padrão: [] |
| 27 | HTTPCACHE_IGNORE_MISSING Esta configuração, se habilitada, as solicitações serão ignoradas se não forem encontradas no cache. Valor padrão: False |
| 28 | HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS É uma lista contendo controles de cache a serem ignorados. Valor padrão: [] |
| 29 | HTTPCACHE_IGNORE_SCHEME Ele afirma que as respostas HTTP não devem ser armazenadas em cache com esquemas de URI. Valor padrão: ['arquivo'] |
| 30 | HTTPCACHE_POLICY Ele define uma política de cache de implementação de classe. Valor padrão: 'scrapy.extensions.httpcache.DummyPolicy' |
| 31 | HTTPCACHE_STORAGE É uma classe que implementa o armazenamento em cache. Valor padrão: 'scrapy.extensions.httpcache.FilesystemCacheStorage' |
| 32 | HTTPERROR_ALLOWED_CODES É uma lista onde todas as respostas são passadas com códigos de status diferentes de 200. Valor padrão: [] |
| 33 | HTTPERROR_ALLOW_ALL Esta configuração, quando ativada, todas as respostas são passadas, independentemente de seus códigos de status. Valor padrão: False |
| 34 | HTTPPROXY_AUTH_ENCODING Ele é usado para autenticar o proxy em HttpProxyMiddleware . Valor padrão: "latin-1" |
| 35 | IMAGES_EXPIRES Define o atraso para a expiração das imagens. Valor padrão: 90 dias |
| 36 | IMAGES_MIN_HEIGHT É usado para descartar imagens muito pequenas usando o tamanho mínimo. |
| 37 | IMAGES_MIN_WIDTH É usado para descartar imagens muito pequenas usando o tamanho mínimo. |
| 38 | IMAGES_RESULT_FIELD É definido quando você deseja usar outro nome de campo para suas imagens processadas. |
| 39 | IMAGES_STORE Ele é usado para armazenar as imagens baixadas, definindo-as com um valor válido. |
| 40 | IMAGES_STORE_S3_ACL É usado para modificar a política de ACL para as imagens armazenadas no bucket do Amazon S3. Valor padrão: privado |
| 41 | IMAGES_THUMBS Ele é configurado para criar as miniaturas das imagens baixadas. |
| 42 | IMAGES_URLS_FIELD É definido quando você deseja usar outro nome de campo para seus URLs de imagens. |
| 43 | MAIL_FROM O remetente usa essa configuração para enviar os e-mails. Valor padrão: 'scrapy @ localhost' |
| 44 | MAIL_HOST É um host SMTP usado para enviar e-mails. Valor padrão: 'localhost' |
| 45 | MAIL_PASS É uma senha usada para autenticar o SMTP. Valor padrão: Nenhum |
| 46 | MAIL_PORT É uma porta SMTP usada para enviar e-mails. Valor padrão: 25 |
| 47 | MAIL_SSL Ele é usado para implementar a conexão usando uma conexão criptografada SSL. Valor padrão: False |
| 48 | MAIL_TLS Quando ativado, ele força a conexão usando STARTTLS. Valor padrão: False |
| 49 | MAIL_USER Ele define um usuário para autenticar o SMTP. Valor padrão: Nenhum |
| 50 | METAREFRESH_ENABLED Indica que o middleware de atualização meta está ativado. Valor padrão: True |
| 51 | METAREFRESH_MAXDELAY É um atraso máximo para uma meta-atualização redirecionar. Valor padrão: 100 |
| 52 | REDIRECT_ENABLED Indica que o middleware de redirecionamento está ativado. Valor padrão: True |
| 53 | REDIRECT_MAX_TIMES Ele define o número máximo de vezes que uma solicitação deve ser redirecionada. Valor padrão: 20 |
| 54 | REFERER_ENABLED Indica que o middleware do referenciador está ativado. Valor padrão: True |
| 55 | RETRY_ENABLED Indica que o middleware de nova tentativa está ativado. Valor padrão: True |
| 56 | RETRY_HTTP_CODES Ele define quais códigos HTTP devem ser tentados novamente. Valor padrão: [500, 502, 503, 504, 408] |
| 57 | RETRY_TIMES Ele define o número máximo de vezes para nova tentativa. Valor padrão: 2 |
| 58 | TELNETCONSOLE_HOST Ele define uma interface na qual o console telnet deve escutar. Valor padrão: '127.0.0.1' |
| 59 | TELNETCONSOLE_PORT Ele define uma porta a ser usada para o console telnet. Valor padrão: [6023, 6073] |