Data Mining - Temas

Fundamentos teóricos da mineração de dados

Os fundamentos teóricos da mineração de dados incluem os seguintes conceitos -

  • Data Reduction- A ideia básica desta teoria é reduzir a representação de dados que troca precisão por velocidade em resposta à necessidade de obter respostas aproximadas rápidas a consultas em bancos de dados muito grandes. Algumas das técnicas de redução de dados são as seguintes -

    • Decomposição de valor singular

    • Wavelets

    • Regression

    • Modelos log-lineares

    • Histograms

    • Clustering

    • Sampling

    • Construção de Árvores de Índice

  • Data Compression - A ideia básica desta teoria é comprimir os dados fornecidos pela codificação nos termos do seguinte -

    • Bits

    • Regras de Associação

    • Árvores de decisão

    • Clusters

  • Pattern Discovery- A ideia básica desta teoria é descobrir padrões que ocorrem em um banco de dados. A seguir estão as áreas que contribuem para esta teoria -

    • Aprendizado de Máquina

    • Rede neural

    • Associação de Mineração

    • Correspondência de padrões sequenciais

    • Clustering

  • Probability Theory- Esta teoria é baseada na teoria estatística. A ideia básica por trás dessa teoria é descobrir distribuições de probabilidade conjuntas de variáveis ​​aleatórias.

  • Probability Theory - De acordo com esta teoria, a mineração de dados encontra os padrões que são interessantes apenas na medida em que podem ser usados ​​no processo de tomada de decisão de alguma empresa.

  • Microeconomic View- De acordo com esta teoria, um esquema de banco de dados consiste em dados e padrões que são armazenados em um banco de dados. Portanto, data mining é a tarefa de realizar indução em bancos de dados.

  • Inductive databases- Além das técnicas orientadas a banco de dados, existem técnicas estatísticas disponíveis para a análise de dados. Essas técnicas podem ser aplicadas a dados científicos e também a dados de ciências econômicas e sociais.

Mineração de dados estatísticos

Algumas das Técnicas de Mineração de Dados Estatísticos são as seguintes -

  • Regression- Os métodos de regressão são usados ​​para prever o valor da variável de resposta de uma ou mais variáveis ​​de previsão onde as variáveis ​​são numéricas. Listadas abaixo estão as formas de regressão -

    • Linear

    • Multiple

    • Weighted

    • Polynomial

    • Nonparametric

    • Robust

  • Generalized Linear Models - O modelo linear generalizado inclui -

    • Regressão Logística

    • Regressão de Poisson

    A generalização do modelo permite que uma variável de resposta categórica seja relacionada a um conjunto de variáveis ​​preditoras de maneira semelhante à modelagem da variável de resposta numérica usando regressão linear.

  • Analysis of Variance - Esta técnica analisa -

    • Dados experimentais para duas ou mais populações descritas por uma variável de resposta numérica.

    • Uma ou mais variáveis ​​categóricas (fatores).

  • Mixed-effect Models- Esses modelos são usados ​​para analisar dados agrupados. Esses modelos descrevem a relação entre uma variável de resposta e algumas covariáveis ​​nos dados agrupados de acordo com um ou mais fatores.

  • Factor Analysis- A análise fatorial é usada para prever uma variável de resposta categórica. Este método assume que as variáveis ​​independentes seguem uma distribuição normal multivariada.

  • Time Series Analysis - A seguir estão os métodos para analisar dados de série temporal -

    • Métodos de auto-regressão.

    • Modelagem univariada ARIMA (AutoRegressive Integrated Moving Average).

    • Modelagem de séries temporais com memória longa.

Visual Data Mining

Visual Data Mining usa técnicas de visualização de dados e / ou conhecimento para descobrir o conhecimento implícito de grandes conjuntos de dados. A mineração de dados visual pode ser vista como uma integração das seguintes disciplinas -

  • Visualização de dados

  • Mineração de dados

A mineração de dados visuais está intimamente relacionada ao seguinte -

  • Computação Gráfica

  • Sistemas Multimídia

  • Interação Humano-Computador

  • Reconhecimento de padrões

  • Computação de alto desempenho

Geralmente, a visualização de dados e a mineração de dados podem ser integradas das seguintes maneiras -

  • Data Visualization - Os dados em um banco de dados ou armazém de dados podem ser visualizados em várias formas visuais que estão listadas abaixo -

    • Boxplots

    • Cubos 3-D

    • Gráficos de distribuição de dados

    • Curves

    • Surfaces

    • Gráficos de links etc.

  • Data Mining Result Visualization- Data Mining Result Visualization é a apresentação dos resultados da mineração de dados em formas visuais. Essas formas visuais podem ser gráficos dispersos, boxplots, etc.

  • Data Mining Process Visualization- Data Mining Process Visualization apresenta os diversos processos de data mining. Ele permite que os usuários vejam como os dados são extraídos. Também permite que os usuários vejam de qual banco de dados ou data warehouse os dados são limpos, integrados, pré-processados ​​e extraídos.

Mineração de dados de áudio

A mineração de dados de áudio faz uso de sinais de áudio para indicar os padrões de dados ou os recursos dos resultados da mineração de dados. Ao transformar padrões em sons e reflexões, podemos ouvir tons e melodias, em vez de assistir a imagens, a fim de identificar algo interessante.

Mineração de dados e filtragem colaborativa

Os consumidores hoje encontram uma variedade de produtos e serviços enquanto fazem compras. Durante as transações do cliente ao vivo, um sistema de recomendação ajuda o consumidor fazendo recomendações de produtos. A abordagem de filtragem colaborativa é geralmente usada para recomendar produtos aos clientes. Essas recomendações são baseadas nas opiniões de outros clientes.