OpenNLP - API referenciada
Neste capítulo, discutiremos sobre as classes e métodos que usaremos nos capítulos subsequentes deste tutorial.
Detecção de frases
Classe SentençaModel
Esta classe representa o modelo predefinido que é usado para detectar as sentenças em um determinado texto bruto. Esta classe pertence ao pacoteopennlp.tools.sentdetect.
O construtor desta classe aceita um InputStream objeto do arquivo de modelo do detector de frases (en-sent.bin).
Classe SentençaDetectorME
Esta classe pertence ao pacote opennlp.tools.sentdetecte contém métodos para dividir o texto bruto em frases. Esta classe usa um modelo de entropia máxima para avaliar caracteres de fim de frase em uma string para determinar se eles significam o fim de uma frase.
A seguir estão os métodos importantes desta classe.
S.No | Métodos e Descrição |
---|---|
1 |
sentDetect() Este método é usado para detectar as sentenças no texto bruto transmitido a ele. Ele aceita uma variável String como parâmetro e retorna um array String que contém as sentenças do texto bruto fornecido. |
2 |
sentPosDetect() Este método é usado para detectar as posições das sentenças no texto fornecido. Este método aceita uma variável string, que representa a frase e retorna uma matriz de objetos do tipoSpan. A classe chamada Span do opennlp.tools.util pacote é usado para armazenar o inteiro inicial e final dos conjuntos. |
3 |
getSentenceProbabilities() Este método retorna as probabilidades associadas às chamadas mais recentes para sentDetect() método. |
Tokenização
Classe TokenizerModel
Esta classe representa o modelo predefinido que é usado para tokenizar a frase dada. Esta classe pertence ao pacoteopennlp.tools.tokenizer.
O construtor desta classe aceita um InputStream objeto do arquivo de modelo do tokenizer (entoken.bin).
Aulas
Para realizar a tokenização, a biblioteca OpenNLP fornece três classes principais. Todas as três classes implementam a interface chamadaTokenizer.
S.No | Classes e Descrição |
---|---|
1 |
SimpleTokenizer Esta classe simboliza o texto bruto fornecido usando classes de caracteres. |
2 |
WhitespaceTokenizer Esta classe usa espaços em branco para tokenizar o texto fornecido. |
3 |
TokenizerME Esta classe converte texto bruto em tokens separados. Ele usa Entropia Máxima para tomar suas decisões. |
Essas classes contêm os seguintes métodos.
S.No | Métodos e Descrição |
---|---|
1 |
tokenize() Este método é usado para tokenizar o texto bruto. Este método aceita uma variável String como parâmetro e retorna uma matriz de Strings (tokens). |
2 |
sentPosDetect() Este método é usado para obter as posições ou extensões dos tokens. Ele aceita a frase (ou) texto bruto na forma de string e retorna uma matriz de objetos do tipoSpan. |
Além dos dois métodos acima, o TokenizerME classe tem o getTokenProbabilities() método.
S.No | Métodos e Descrição |
---|---|
1 |
getTokenProbabilities() Este método é usado para obter as probabilidades associadas às chamadas mais recentes para o tokenizePos() método. |
NameEntityRecognition
Classe TokenNameFinderModel
Esta classe representa o modelo predefinido que é usado para encontrar as entidades nomeadas na frase dada. Esta classe pertence ao pacoteopennlp.tools.namefind.
O construtor desta classe aceita um InputStream objeto do arquivo de modelo do localizador de nomes (enner-person.bin).
Classe NameFinderME
A classe pertence ao pacote opennlp.tools.namefinde contém métodos para realizar as tarefas NER. Esta classe usa um modelo de entropia máxima para encontrar as entidades nomeadas no texto bruto fornecido.
S.No | Métodos e Descrição |
---|---|
1 |
find() Este método é usado para detectar os nomes no texto bruto. Ele aceita uma variável String representando o texto bruto como um parâmetro e retorna um array de objetos do tipo Span. |
2 |
probs() Este método é usado para obter as probabilidades da última sequência decodificada. |
Encontrando as partes do discurso
Classe POSModel
Esta classe representa o modelo predefinido que é usado para marcar as classes gramaticais de uma determinada frase. Esta classe pertence ao pacoteopennlp.tools.postag.
O construtor desta classe aceita um InputStream objeto do arquivo de modelo pos-tagger (enpos-maxent.bin).
Classe POSTaggerME
Esta classe pertence ao pacote opennlp.tools.postage é usado para prever as classes gramaticais de um determinado texto bruto. Ele usa Entropia Máxima para tomar suas decisões.
S.No | Métodos e Descrição |
---|---|
1 |
tag() Este método é usado para atribuir a frase de marcas de tokens POS. Este método aceita um array de tokens (String) como parâmetro e retorna uma tag (array). |
2 |
getSentenceProbabilities() Este método é usado para obter as probabilidades de cada tag da frase recentemente marcada. |
Analisando a frase
Classe ParserModel
Esta classe representa o modelo predefinido que é usado para analisar a frase dada. Esta classe pertence ao pacoteopennlp.tools.parser.
O construtor desta classe aceita um InputStream objeto do arquivo de modelo do analisador (en-parserchunking.bin).
Classe Parser Factory
Esta classe pertence ao pacote opennlp.tools.parser e é usado para criar analisadores.
S.No | Métodos e Descrição |
---|---|
1 |
create() Este é um método estático e é usado para criar um objeto analisador. Este método aceita o objeto Filestream do arquivo de modelo do analisador. |
Classe ParserTool
Esta classe pertence ao opennlp.tools.cmdline.parser pacote e, é usado para analisar o conteúdo.
S.No | Métodos e Descrição |
---|---|
1 |
parseLine() Este método do ParserToolclasse é usada para analisar o texto bruto no OpenNLP. Este método aceita -
|
Chunking
Classe ChunkerModel
Esta classe representa o modelo predefinido que é usado para dividir uma frase em partes menores. Esta classe pertence ao pacoteopennlp.tools.chunker.
O construtor desta classe aceita um InputStream objeto do chunker arquivo de modelo (enchunker.bin).
Classe ChunkerME
Esta classe pertence ao pacote denominado opennlp.tools.chunker e é usado para dividir a frase dada em pedaços menores.
S.No | Métodos e Descrição |
---|---|
1 |
chunk() Este método é usado para dividir a frase dada em partes menores. Aceita tokens de uma frase ePartes Of Stags peech como parâmetros. |
2 |
probs() Este método retorna as probabilidades da última sequência decodificada. |