TIKA - API referenciada

Os usuários podem incorporar Tika em seus aplicativos usando a classe de fachada Tika. Possui métodos para explorar todas as funcionalidades do Tika. Por ser uma classe de fachada, Tika abstrai a complexidade por trás de suas funções. Além disso, os usuários também podem usar as várias classes de Tika em seus aplicativos.

Classe Tika (fachada)

Esta é a classe mais proeminente da biblioteca Tika e segue o padrão de design de fachada. Portanto, ele abstrai todas as implementações internas e fornece métodos simples para acessar as funcionalidades do Tika. A tabela a seguir lista os construtores desta classe junto com suas descrições.

package - org.apache.tika

class - Tika

Sr. Não. Construtor e descrição
1

Tika ()

Usa a configuração padrão e constrói a classe Tika.

2

Tika (Detector detector)

Cria uma fachada Tika aceitando a instância do detector como parâmetro

3

Tika (Detector detector, Parser parser)

Cria uma fachada Tika aceitando as instâncias do detector e do analisador como parâmetros.

4

Tika (Detector detector, Parser parser, Translator translator)

Cria uma fachada Tika aceitando o detector, o analisador e a instância do tradutor como parâmetros.

5

Tika (TikaConfig config)

Cria uma fachada Tika aceitando o objeto da classe TikaConfig como parâmetro.

Métodos e Descrição

A seguir estão os métodos importantes da classe de fachada Tika -

Sr. Não. Métodos e Descrição
1

analisarToString (File Arquivo)

Este método e todas as suas variantes analisa o arquivo passado como parâmetro e retorna o conteúdo do texto extraído no formato String. Por padrão, o comprimento desse parâmetro de string é limitado.

2

int getMaxStringLength ()

Retorna o comprimento máximo das strings retornadas pelos métodos parseToString.

3

vazio setMaxStringLength (int maxStringLength)

Define o comprimento máximo das strings retornadas pelos métodos parseToString.

4

Leitor parse (File Arquivo)

Este método e todas as suas variantes analisa o arquivo passado como parâmetro e retorna o conteúdo do texto extraído na forma do objeto java.io.reader.

5

Corda detect (InputStream corrente, Metadata metadados)

Este método e todas as suas variantes aceitam um objeto InputStream e um objeto Metadata como parâmetros, detecta o tipo do documento fornecido e retorna o nome do tipo de documento como objeto String. Este método abstrai os mecanismos de detecção usados ​​por Tika.

6

Corda translate (InputStream texto, String targetLanguage)

Este método e todas as suas variantes aceita o objeto InputStream e uma String que representa o idioma para o qual queremos que nosso texto seja traduzido e traduz o texto fornecido para o idioma desejado, tentando detectar automaticamente o idioma de origem.

Interface do analisador

Esta é a interface que é implementada por todas as classes de analisador do pacote Tika.

package - org.apache.tika.parser

Interface - Parser

Métodos e Descrição

A seguir está o método importante da interface do Tika Parser -

Sr. Não. Métodos e Descrição
1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

Este método analisa o documento fornecido em uma sequência de eventos XHTML e SAX. Após a análise, ele coloca o conteúdo do documento extraído no objeto da classe ContentHandler e os metadados no objeto da classe Metadata.

Classe de Metadados

Esta classe implementa várias interfaces, como CreativeCommons, Geographic, HttpHeaders, Message, MSOffice, ClimateForcast, TIFF, TikaMetadataKeys, TikaMimeKeys, Serializable para suportar vários modelos de dados. As tabelas a seguir listam os construtores e métodos desta classe junto com suas descrições.

package - org.apache.tika.metadata

class - Metadados

Sr. Não. Construtor e descrição
1

Metadata()

Constrói metadados novos e vazios.

Sr. Não. Métodos e Descrição
1

add (Property property, String value)

Adiciona um mapeamento de propriedade / valor de metadados a um determinado documento. Usando esta função, podemos definir o valor de uma propriedade.

2

add (String name, String value)

Adiciona um mapeamento de propriedade / valor de metadados a um determinado documento. Usando este método, podemos definir um novo valor de nome para os metadados existentes de um documento.

3

String get (Property property)

Retorna o valor (se houver) da propriedade de metadados fornecida.

4

String get (String name)

Retorna o valor (se houver) do nome de metadados fornecido.

5

Date getDate (Property property)

Retorna o valor da propriedade de metadados Date.

6

String[] getValues (Property property)

Retorna todos os valores de uma propriedade de metadados.

7

String[] getValues (String name)

Retorna todos os valores de um determinado nome de metadados.

8

String[] names()

Retorna todos os nomes de elementos de metadados em um objeto de metadados.

9

set (Property property, Date date)

Define o valor da data da propriedade de metadados fornecida

10

set(Property property, String[] values)

Define vários valores para uma propriedade de metadados.

Classe Identificadora de Idioma

Esta classe identifica o idioma do conteúdo fornecido. As tabelas a seguir listam os construtores desta classe junto com suas descrições.

package - org.apache.tika.language

class - Identificador de idioma

Sr. Não. Construtor e descrição
1

LanguageIdentifier (LanguageProfile profile)

Instancia o identificador do idioma. Aqui você deve passar um objeto LanguageProfile como parâmetro.

2

LanguageIdentifier (String content)

Este construtor pode instanciar um identificador de idioma passando uma String do conteúdo do texto.

Sr. Não. Métodos e Descrição
1

String getLanguage ()

Retorna o idioma fornecido ao objeto LanguageIdentifier atual.