Mineração de Dados - Tarefas

A mineração de dados lida com os tipos de padrões que podem ser extraídos. Com base no tipo de dados a serem extraídos, existem duas categorias de funções envolvidas na mineração de dados -

  • Descriptive
  • Classificação e previsão

Função Descritiva

A função descritiva trata das propriedades gerais dos dados no banco de dados. Aqui está a lista de funções descritivas -

  • Descrição da Classe / Conceito
  • Mineração de padrões frequentes
  • Mineração de Associações
  • Mineração de Correlações
  • Mineração de Clusters

Descrição da Classe / Conceito

Classe / Conceito refere-se aos dados a serem associados às classes ou conceitos. Por exemplo, em uma empresa, as classes de itens para vendas incluem computador e impressoras, e os conceitos de clientes incluem grandes gastadores e gastadores de orçamento. Essas descrições de uma classe ou conceito são chamadas de descrições de classe / conceito. Essas descrições podem ser derivadas das duas maneiras a seguir -

  • Data Characterization- Refere-se a resumir os dados da aula em estudo. Esta classe em estudo é chamada de Classe Alvo.

  • Data Discrimination - Refere-se ao mapeamento ou classificação de uma classe com algum grupo ou classe pré-definida.

Mineração de padrões frequentes

Padrões frequentes são aqueles padrões que ocorrem com frequência em dados transacionais. Aqui está a lista de tipos de padrões frequentes -

  • Frequent Item Set - Refere-se a um conjunto de itens que freqüentemente aparecem juntos, por exemplo, leite e pão.

  • Frequent Subsequence - Uma sequência de padrões que ocorre com frequência, como a compra de uma câmera, é seguida por um cartão de memória.

  • Frequent Sub Structure - Subestrutura refere-se a diferentes formas estruturais, como gráficos, árvores ou reticulados, que podem ser combinados com conjuntos de itens ou subsequências.

Mineração de Associação

Associações são usadas em vendas no varejo para identificar padrões que freqüentemente são comprados juntos. Esse processo se refere ao processo de descobrir a relação entre os dados e determinar as regras de associação.

Por exemplo, um varejista gera uma regra de associação que mostra que 70% das vezes o leite é vendido com pão e apenas 30% das vezes os biscoitos são vendidos com pão.

Mineração de Correlações

É um tipo de análise adicional realizada para descobrir correlações estatísticas interessantes entre pares de valores de atributos associados ou entre dois conjuntos de itens para analisar se eles têm efeito positivo, negativo ou nenhum efeito um sobre o outro.

Mineração de Clusters

Cluster se refere a um grupo de objetos semelhantes. A análise de cluster se refere à formação de grupos de objetos muito semelhantes entre si, mas altamente diferentes dos objetos de outros clusters.

Classificação e previsão

Classificação é o processo de encontrar um modelo que descreva as classes de dados ou conceitos. O objetivo é poder usar este modelo para prever a classe de objetos cujo rótulo de classe é desconhecido. Este modelo derivado é baseado na análise de conjuntos de dados de treinamento. O modelo derivado pode ser apresentado nas seguintes formas -

  • Regras de classificação (IF-THEN)
  • Árvores de decisão
  • Fórmulas Matemáticas
  • Redes neurais

A lista de funções envolvidas nesses processos é a seguinte -

  • Classification- Prevê a classe de objetos cujo rótulo de classe é desconhecido. Seu objetivo é encontrar um modelo derivado que descreve e distingue classes de dados ou conceitos. O modelo derivado é baseado no conjunto de análise de dados de treinamento, ou seja, o objeto de dados cujo rótulo de classe é bem conhecido.

  • Prediction- É usado para prever valores de dados numéricos ausentes ou indisponíveis em vez de rótulos de classe. A análise de regressão geralmente é usada para previsão. A previsão também pode ser usada para identificar tendências de distribuição com base nos dados disponíveis.

  • Outlier Analysis - Outliers podem ser definidos como os objetos de dados que não cumprem o comportamento geral ou modelo dos dados disponíveis.

  • Evolution Analysis - A análise da evolução refere-se à descrição e regularidades do modelo ou tendências para objetos cujo comportamento muda ao longo do tempo.

Data Mining Task Primitivos

  • Podemos especificar uma tarefa de mineração de dados na forma de uma consulta de mineração de dados.
  • Esta consulta é inserida no sistema.
  • Uma consulta de mineração de dados é definida em termos de primitivas de tarefa de mineração de dados.

Note- Essas primitivas nos permitem comunicar de forma interativa com o sistema de mineração de dados. Aqui está a lista de primitivas de tarefa de mineração de dados -

  • Conjunto de dados relevantes da tarefa a serem extraídos.
  • Tipo de conhecimento a ser explorado.
  • Conhecimento prévio a ser usado no processo de descoberta.
  • Medidas de interesse e limites para avaliação de padrões.
  • Representação para visualizar os padrões descobertos.

Conjunto de dados relevantes da tarefa a serem extraídos

Esta é a parte do banco de dados na qual o usuário está interessado. Esta parte inclui o seguinte -

  • Atributos de banco de dados
  • Dimensões de interesse do data warehouse

Tipo de conhecimento a ser explorado

Refere-se ao tipo de funções a serem desempenhadas. Essas funções são -

  • Characterization
  • Discrimination
  • Análise de Associação e Correlação
  • Classification
  • Prediction
  • Clustering
  • Análise Outlier
  • Análise de Evolução

Conhecimento prévio

O conhecimento prévio permite que os dados sejam extraídos em vários níveis de abstração. Por exemplo, as hierarquias de conceito são um dos conhecimentos básicos que permitem que os dados sejam extraídos em vários níveis de abstração.

Medidas de interesse e limites para avaliação de padrões

Isso é usado para avaliar os padrões que são descobertos pelo processo de descoberta de conhecimento. Existem diferentes medidas interessantes para diferentes tipos de conhecimento.

Representação para visualizar os padrões descobertos

Isso se refere à forma em que os padrões descobertos devem ser exibidos. Essas representações podem incluir o seguinte. -

  • Rules
  • Tables
  • Charts
  • Graphs
  • Árvores de decisão
  • Cubes