Data Mining - Mining Text Data

Bancos de dados de texto consistem em uma grande coleção de documentos. Eles coletam essas informações de várias fontes, como artigos de notícias, livros, bibliotecas digitais, mensagens de e-mail, páginas da web, etc. Devido ao aumento da quantidade de informações, as bases de dados de texto estão crescendo rapidamente. Em muitas das bases de dados de texto, os dados são semiestruturados.

Por exemplo, um documento pode conter alguns campos estruturados, como título, autor, data_de_publicação, etc. Mas junto com os dados da estrutura, o documento também contém componentes de texto não estruturados, como resumo e conteúdo. Sem saber o que poderia estar nos documentos, é difícil formular consultas eficazes para analisar e extrair informações úteis dos dados. Os usuários precisam de ferramentas para comparar os documentos e classificar sua importância e relevância. Portanto, a mineração de texto se tornou popular e um tema essencial na mineração de dados.

Recuperação de informação

A recuperação de informações trata da recuperação de informações de um grande número de documentos baseados em texto. Alguns dos sistemas de banco de dados geralmente não estão presentes em sistemas de recuperação de informações porque ambos lidam com diferentes tipos de dados. Exemplos de sistema de recuperação de informação incluem -

  • Sistema de catálogo da biblioteca online
  • Sistemas de gerenciamento de documentos online
  • Sistemas de pesquisa na web etc.

Note- O principal problema em um sistema de recuperação de informação é localizar documentos relevantes em uma coleção de documentos com base na consulta do usuário. Este tipo de consulta do usuário consiste em algumas palavras-chave que descrevem uma necessidade de informação.

Em tais problemas de pesquisa, o usuário toma a iniciativa de extrair informações relevantes de uma coleção. Isso é apropriado quando o usuário tem necessidade de informações ad-hoc, ou seja, uma necessidade de curto prazo. Mas se o usuário tiver uma necessidade de informações de longo prazo, o sistema de recuperação também pode tomar a iniciativa de enviar qualquer item de informação recém-chegado ao usuário.

Esse tipo de acesso às informações é denominado Filtragem de Informações. E os sistemas correspondentes são conhecidos como Sistemas de Filtragem ou Sistemas de Recomendação.

Medidas básicas para recuperação de texto

Precisamos verificar a precisão de um sistema quando ele recupera uma série de documentos com base na entrada do usuário. Deixe o conjunto de documentos relevantes para uma consulta ser denotado como {Relevante} e o conjunto de documentos recuperados como {Recuperado}. O conjunto de documentos que são relevantes e recuperados pode ser denotado como {Relevante} ∩ {Recuperado}. Isso pode ser mostrado na forma de um diagrama de Venn como segue -

Existem três medidas fundamentais para avaliar a qualidade da recuperação de texto -

  • Precision
  • Recall
  • F-score

Precisão

A precisão é a porcentagem de documentos recuperados que são de fato relevantes para a consulta. A precisão pode ser definida como -

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

Recall

A recuperação é a porcentagem de documentos que são relevantes para a consulta e foram de fato recuperados. Recall é definido como -

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

Pontuação F

A pontuação F é a compensação comumente usada. O sistema de recuperação de informações frequentemente precisa ser compensado pela precisão ou vice-versa. A pontuação F é definida como média harmônica de recall ou precisão da seguinte forma -

F-score = recall x precision / (recall + precision) / 2