Processamento de Discurso de Linguagem Natural

O problema mais difícil da IA ​​é processar a linguagem natural por computadores ou, em outras palavras, o processamento da linguagem natural é o problema mais difícil da inteligência artificial. Se falarmos sobre os principais problemas da PNL, então um dos maiores problemas da PNL é o processamento do discurso - construir teorias e modelos de como os enunciados se unem para formarcoherent discourse. Na verdade, a linguagem sempre consiste em grupos de frases colocados, estruturados e coerentes, em vez de frases isoladas e não relacionadas como filmes. Esses grupos coerentes de frases são chamados de discurso.

Conceito de Coerência

A coerência e a estrutura do discurso estão interligadas de várias maneiras. Coerência, junto com propriedade de bom texto, é usada para avaliar a qualidade de saída do sistema de geração de linguagem natural. A questão que se coloca aqui é o que significa para um texto ser coerente? Suponha que coletamos uma frase de cada página do jornal, então será um discurso? Claro que não. É porque essas frases não apresentam coerência. O discurso coerente deve possuir as seguintes propriedades -

Relação de coerência entre enunciados

O discurso seria coerente se tivesse conexões significativas entre seus enunciados. Essa propriedade é chamada de relação de coerência. Por exemplo, algum tipo de explicação deve existir para justificar a conexão entre as elocuções.

Relacionamento entre entidades

Outra propriedade que torna um discurso coerente é que deve haver certo tipo de relacionamento com as entidades. Esse tipo de coerência é chamado de coerência baseada em entidade.

Estrutura do discurso

Uma questão importante a respeito do discurso é que tipo de estrutura o discurso deve ter. A resposta a essa pergunta depende da segmentação que aplicamos ao discurso. As segmentações do discurso podem ser definidas como determinantes dos tipos de estruturas para um grande discurso. É muito difícil implementar a segmentação do discurso, mas é muito importante parainformation retrieval, text summarization and information extraction tipo de aplicações.

Algoritmos para segmentação do discurso

Nesta seção, aprenderemos sobre os algoritmos para segmentação do discurso. Os algoritmos são descritos abaixo -

Segmentação do discurso não supervisionado

A classe de segmentação de discurso não supervisionada é freqüentemente representada como segmentação linear. Podemos entender a tarefa de segmentação linear com a ajuda de um exemplo. No exemplo, há uma tarefa de segmentar o texto em unidades de vários parágrafos; as unidades representam a passagem do texto original. Esses algoritmos dependem da coesão que pode ser definida como o uso de certos dispositivos linguísticos para amarrar as unidades textuais. Por outro lado, a coesão do léxico é a coesão indicada pela relação entre duas ou mais palavras em duas unidades, como o uso de sinônimos.

Segmentação do discurso supervisionado

O método anterior não tem limites de segmento rotulados à mão. Por outro lado, a segmentação do discurso supervisionado precisa ter dados de treinamento rotulados por limites. É muito fácil adquirir o mesmo. Na segmentação supervisionada do discurso, o marcador do discurso ou as palavras-chave desempenham um papel importante. Marcador de discurso ou palavra-chave é uma palavra ou frase que funciona para sinalizar a estrutura do discurso. Esses marcadores de discurso são específicos do domínio.

Coerência de Texto

A repetição lexical é uma forma de encontrar a estrutura de um discurso, mas não satisfaz a exigência de ser um discurso coerente. Para alcançar o discurso coerente, devemos nos concentrar nas relações de coerência em específico. Como sabemos, essa relação de coerência define a conexão possível entre os enunciados em um discurso. Hebb propôs esse tipo de relações como segue -

Estamos levando dois termos S0 e S1 para representar o significado das duas frases relacionadas -

Resultado

Isso infere que o estado afirmado por termo S0 poderia causar o estado afirmado por S1. Por exemplo, duas declarações mostram o resultado do relacionamento: Ram foi pego pelo fogo. Sua pele queimou.

Explicação

Conclui que o estado afirmado por S1 poderia causar o estado afirmado por S0. Por exemplo, duas declarações mostram o relacionamento - Ram brigou com o amigo de Shyam. Ele estava bêbado.

Paralelo

Ele infere p (a1, a2, ...) da asserção de S0 e p (b1, b2, ...) da afirmação S1. Aqui, ai e bi são semelhantes para todos os i. Por exemplo, duas declarações são paralelas - Ram queria carro. Shyam queria dinheiro.

Elaboração

Ele infere a mesma proposição P de ambas as afirmações - S0 e S1Por exemplo, duas declarações mostram a elaboração da relação: Ram era de Chandigarh. Shyam era de Kerala.

Ocasião

Acontece quando uma mudança de estado pode ser inferida a partir da afirmação de S0, estado final do qual pode ser inferido de S1e vice versa. Por exemplo, as duas declarações mostram a ocasião da relação: Ram pegou o livro. Ele deu a Shyam.

Construindo Estrutura Hierárquica do Discurso

A coerência de todo o discurso também pode ser considerada pela estrutura hierárquica entre as relações de coerência. Por exemplo, a seguinte passagem pode ser representada como estrutura hierárquica -

  • S1 - Ram foi ao banco para depositar dinheiro.

  • S2 - Ele então pegou um trem para a loja de roupas de Shyam.

  • S3 - Ele queria comprar algumas roupas.

  • S4 - Ele não tem roupa nova para festa.

  • S5 - Ele também queria falar com Shyam sobre sua saúde

Resolução de Referência

A interpretação das frases de qualquer discurso é outra tarefa importante e para isso precisamos saber de quem ou de que entidade está se falando. Aqui, a referência de interpretação é o elemento chave.Referencepode ser definida como a expressão linguística para denotar uma entidade ou indivíduo. Por exemplo, na passagem, Ram , o gerente do banco ABC , viu seu amigo Shyam em uma loja. Ele foi ao seu encontro, as expressões linguísticas como Ram, His, He são referência.

Na mesma nota, reference resolution pode ser definida como a tarefa de determinar quais entidades são referidas por qual expressão linguística.

Terminologia usada na resolução de referência

Usamos as seguintes terminologias na resolução de referência -

  • Referring expression- A expressão de linguagem natural usada para fazer referência é chamada de expressão de referência. Por exemplo, a passagem usada acima é uma expressão de referência.

  • Referent- É a entidade que se refere. Por exemplo, no último exemplo dado, Ram é um referente.

  • Corefer- Quando duas expressões são usadas para se referir à mesma entidade, elas são chamadas de correferências. Por exemplo,Ram e he são corefers.

  • Antecedent- O termo tem licença para usar outro termo. Por exemplo,Ram é o antecedente da referência he.

  • Anaphora & Anaphoric- Pode ser definida como a referência a uma entidade previamente introduzida na frase. E, a expressão de referência é chamada de anafórica.

  • Discourse model - O modelo que contém as representações das entidades que foram referidas no discurso e a relação que mantêm.

Tipos de expressões de referência

Vamos agora ver os diferentes tipos de expressões referenciais. Os cinco tipos de expressões de referência são descritos abaixo -

Frases substantivas indefinidas

Esse tipo de referência representa as entidades que são novas para o ouvinte no contexto do discurso. Por exemplo - na frase que Ram saiu por aí um dia para levar comida para ele - alguma é uma referência indefinida.

Frases substantivas definidas

Ao contrário do anterior, esse tipo de referência representa as entidades que não são novas ou identificáveis ​​para o ouvinte no contexto do discurso. Por exemplo, na frase - Eu costumava ler The Times of India - The Times of India é uma referência definitiva.

Pronomes

É uma forma de referência definitiva. Por exemplo, Ram riu o mais alto que pôde. A palavrahe representa a expressão referente ao pronome.

Demonstrativos

Eles demonstram e se comportam de maneira diferente dos pronomes definidos simples. Por exemplo, este e aquele são pronomes demonstrativos.

Nomes

É o tipo mais simples de expressão de referência. Pode ser o nome de uma pessoa, organização e local também. Por exemplo, nos exemplos acima, Ram é a expressão que faz referência a nomes.

Tarefas de resolução de referência

As duas tarefas de resolução de referência são descritas abaixo.

Resolução de correferência

É a tarefa de encontrar expressões referenciais em um texto que se refiram à mesma entidade. Em palavras simples, é a tarefa de encontrar as expressões do corefer. Um conjunto de expressões de co-referência é chamado de cadeia de co-referência. Por exemplo - He, Chief Manager e His - são expressões de referência na primeira passagem dada como exemplo.

Restrição na resolução de correferência

Em inglês, o principal problema para a resolução de correferência é o pronome it. A razão por trás disso é que o pronome tem muitos usos. Por exemplo, pode se referir a ele e ela. O pronome também se refere às coisas que não se referem a coisas específicas. Por exemplo, está chovendo. É realmente bom.

Resolução da Anáfora Pronominal

Ao contrário da resolução de correferência, a resolução da anáfora pronominal pode ser definida como a tarefa de encontrar o antecedente de um único pronome. Por exemplo, o pronome é dele e a tarefa da resolução da anáfora pronominal é encontrar a palavra Ram porque Ram é o antecedente.