OpenNLP - Visão geral

PNL é um conjunto de ferramentas usadas para obter informações significativas e úteis de fontes de linguagem natural, como páginas da web e documentos de texto.

O que é Open NLP?

Apache OpenNLPé uma biblioteca Java de código aberto usada para processar texto em linguagem natural. Você pode construir um serviço de processamento de texto eficiente usando esta biblioteca.

O OpenNLP fornece serviços como tokenização, segmentação de frase, marcação de parte da fala, extração de entidade nomeada, chunking, análise e resolução de co-referência, etc.

Recursos do OpenNLP

A seguir estão os recursos notáveis ​​do OpenNLP -

  • Named Entity Recognition (NER) - Open NLP suporta NER, usando o qual você pode extrair nomes de locais, pessoas e coisas, mesmo durante o processamento de consultas.

  • Summarize - Usando o summarize recurso, você pode resumir Parágrafos, artigos, documentos ou sua coleção em PNL.

  • Searching - No OpenNLP, uma determinada string de pesquisa ou seus sinônimos podem ser identificados em um determinado texto, mesmo que a palavra fornecida esteja alterada ou incorreta.

  • Tagging (POS) - A marcação em PNL é usada para dividir o texto em vários elementos gramaticais para análise posterior.

  • Translation - Na PNL, a tradução ajuda a traduzir um idioma para outro.

  • Information grouping - Esta opção em PNL agrupa as informações textuais no conteúdo do documento, assim como partes do discurso.

  • Natural Language Generation - É usado para gerar informações a partir de um banco de dados e automatizar os relatórios de informações como análises meteorológicas ou relatórios médicos.

  • Feedback Analysis - Como o nome indica, vários tipos de feedbacks de pessoas são coletados, em relação aos produtos, pela PNL para analisar se o produto tem sucesso em conquistar seus corações.

  • Speech recognition - Embora seja difícil analisar a fala humana, a PNL possui alguns recursos internos para esse requisito.

API Open NLP

A biblioteca Apache OpenNLP fornece classes e interfaces para realizar várias tarefas de processamento de linguagem natural, como detecção de sentenças, tokenização, localização de um nome, marcação de classes gramaticais, fragmentação de sentenças, análise, resolução de co-referência e categorização de documentos.

Além dessas tarefas, também podemos treinar e avaliar nossos próprios modelos para qualquer uma dessas tarefas.

OpenNLP CLI

Além da biblioteca, o OpenNLP também oferece uma Command Line Interface (CLI), onde podemos treinar e avaliar modelos. Discutiremos esse tópico em detalhes no último capítulo deste tutorial.

Modelos de PNL abertos

Para realizar várias tarefas de PNL, o OpenNLP fornece um conjunto de modelos predefinidos. Este conjunto inclui modelos para diferentes idiomas.

Baixando os modelos

Você pode seguir as etapas abaixo para baixar os modelos predefinidos fornecidos pelo OpenNLP.

Step 1 - Abra a página de índice dos modelos OpenNLP clicando no seguinte link - http://opennlp.sourceforge.net/models-1.5/.

Step 2- Ao visitar o link fornecido, você verá uma lista de componentes em vários idiomas e os links para baixá-los. Aqui, você pode obter a lista de todos os modelos predefinidos fornecidos pelo OpenNLP.

Baixe todos esses modelos para a pasta C:/OpenNLP_models/>, clicando em seus respectivos links. Todos esses modelos dependem do idioma e, ao usá-los, você deve certificar-se de que o idioma do modelo corresponde ao idioma do texto de entrada.

História do OpenNLP

  • Em 2010, o OpenNLP entrou na incubação Apache.

  • Em 2011, o Apache OpenNLP 1.5.2 Incubating foi lançado e, no mesmo ano, graduou-se como um projeto Apache de nível superior.

  • Em 2015, o OpenNLP foi lançado 1.6.0.