OpenNLP - API referenciada

Neste capítulo, discutiremos sobre as classes e métodos que usaremos nos capítulos subsequentes deste tutorial.

Detecção de frases

Classe SentençaModel

Esta classe representa o modelo predefinido que é usado para detectar as sentenças em um determinado texto bruto. Esta classe pertence ao pacoteopennlp.tools.sentdetect.

O construtor desta classe aceita um InputStream objeto do arquivo de modelo do detector de frases (en-sent.bin).

Classe SentençaDetectorME

Esta classe pertence ao pacote opennlp.tools.sentdetecte contém métodos para dividir o texto bruto em frases. Esta classe usa um modelo de entropia máxima para avaliar caracteres de fim de frase em uma string para determinar se eles significam o fim de uma frase.

A seguir estão os métodos importantes desta classe.

S.No Métodos e Descrição
1

sentDetect()

Este método é usado para detectar as sentenças no texto bruto transmitido a ele. Ele aceita uma variável String como parâmetro e retorna um array String que contém as sentenças do texto bruto fornecido.

2

sentPosDetect()

Este método é usado para detectar as posições das sentenças no texto fornecido. Este método aceita uma variável string, que representa a frase e retorna uma matriz de objetos do tipoSpan.

A classe chamada Span do opennlp.tools.util pacote é usado para armazenar o inteiro inicial e final dos conjuntos.

3

getSentenceProbabilities()

Este método retorna as probabilidades associadas às chamadas mais recentes para sentDetect() método.

Tokenização

Classe TokenizerModel

Esta classe representa o modelo predefinido que é usado para tokenizar a frase dada. Esta classe pertence ao pacoteopennlp.tools.tokenizer.

O construtor desta classe aceita um InputStream objeto do arquivo de modelo do tokenizer (entoken.bin).

Aulas

Para realizar a tokenização, a biblioteca OpenNLP fornece três classes principais. Todas as três classes implementam a interface chamadaTokenizer.

S.No Classes e Descrição
1

SimpleTokenizer

Esta classe simboliza o texto bruto fornecido usando classes de caracteres.

2

WhitespaceTokenizer

Esta classe usa espaços em branco para tokenizar o texto fornecido.

3

TokenizerME

Esta classe converte texto bruto em tokens separados. Ele usa Entropia Máxima para tomar suas decisões.

Essas classes contêm os seguintes métodos.

S.No Métodos e Descrição
1

tokenize()

Este método é usado para tokenizar o texto bruto. Este método aceita uma variável String como parâmetro e retorna uma matriz de Strings (tokens).

2

sentPosDetect()

Este método é usado para obter as posições ou extensões dos tokens. Ele aceita a frase (ou) texto bruto na forma de string e retorna uma matriz de objetos do tipoSpan.

Além dos dois métodos acima, o TokenizerME classe tem o getTokenProbabilities() método.

S.No Métodos e Descrição
1

getTokenProbabilities()

Este método é usado para obter as probabilidades associadas às chamadas mais recentes para o tokenizePos() método.

NameEntityRecognition

Classe TokenNameFinderModel

Esta classe representa o modelo predefinido que é usado para encontrar as entidades nomeadas na frase dada. Esta classe pertence ao pacoteopennlp.tools.namefind.

O construtor desta classe aceita um InputStream objeto do arquivo de modelo do localizador de nomes (enner-person.bin).

Classe NameFinderME

A classe pertence ao pacote opennlp.tools.namefinde contém métodos para realizar as tarefas NER. Esta classe usa um modelo de entropia máxima para encontrar as entidades nomeadas no texto bruto fornecido.

S.No Métodos e Descrição
1

find()

Este método é usado para detectar os nomes no texto bruto. Ele aceita uma variável String representando o texto bruto como um parâmetro e retorna um array de objetos do tipo Span.

2

probs()

Este método é usado para obter as probabilidades da última sequência decodificada.

Encontrando as partes do discurso

Classe POSModel

Esta classe representa o modelo predefinido que é usado para marcar as classes gramaticais de uma determinada frase. Esta classe pertence ao pacoteopennlp.tools.postag.

O construtor desta classe aceita um InputStream objeto do arquivo de modelo pos-tagger (enpos-maxent.bin).

Classe POSTaggerME

Esta classe pertence ao pacote opennlp.tools.postage é usado para prever as classes gramaticais de um determinado texto bruto. Ele usa Entropia Máxima para tomar suas decisões.

S.No Métodos e Descrição
1

tag()

Este método é usado para atribuir a frase de marcas de tokens POS. Este método aceita um array de tokens (String) como parâmetro e retorna uma tag (array).

2

getSentenceProbabilities()

Este método é usado para obter as probabilidades de cada tag da frase recentemente marcada.

Analisando a frase

Classe ParserModel

Esta classe representa o modelo predefinido que é usado para analisar a frase dada. Esta classe pertence ao pacoteopennlp.tools.parser.

O construtor desta classe aceita um InputStream objeto do arquivo de modelo do analisador (en-parserchunking.bin).

Classe Parser Factory

Esta classe pertence ao pacote opennlp.tools.parser e é usado para criar analisadores.

S.No Métodos e Descrição
1

create()

Este é um método estático e é usado para criar um objeto analisador. Este método aceita o objeto Filestream do arquivo de modelo do analisador.

Classe ParserTool

Esta classe pertence ao opennlp.tools.cmdline.parser pacote e, é usado para analisar o conteúdo.

S.No Métodos e Descrição
1

parseLine()

Este método do ParserToolclasse é usada para analisar o texto bruto no OpenNLP. Este método aceita -

  • Uma variável String que representa o texto a ser analisado.
  • Um objeto analisador.
  • Um número inteiro que representa o número de análises a serem realizadas.

Chunking

Classe ChunkerModel

Esta classe representa o modelo predefinido que é usado para dividir uma frase em partes menores. Esta classe pertence ao pacoteopennlp.tools.chunker.

O construtor desta classe aceita um InputStream objeto do chunker arquivo de modelo (enchunker.bin).

Classe ChunkerME

Esta classe pertence ao pacote denominado opennlp.tools.chunker e é usado para dividir a frase dada em pedaços menores.

S.No Métodos e Descrição
1

chunk()

Este método é usado para dividir a frase dada em partes menores. Aceita tokens de uma frase ePartes Of Stags peech como parâmetros.

2

probs()

Este método retorna as probabilidades da última sequência decodificada.