Data Mining - Classificação Bayesiana

A classificação bayesiana é baseada no Teorema de Bayes. Os classificadores bayesianos são os classificadores estatísticos. Classificadores bayesianos podem prever probabilidades de associação de classe, como a probabilidade de uma dada tupla pertencer a uma classe particular.

Teorema de Baye

O teorema de Bayes é nomeado após Thomas Bayes. Existem dois tipos de probabilidades -

  • Probabilidade posterior [P (H / X)]
  • Probabilidade anterior [P (H)]

onde X é a tupla de dados e H é alguma hipótese.

De acordo com o Teorema de Bayes,

P (H / X) = P (X / H) P (H) / P (X)

Bayesian Belief Network

As redes de crenças bayesianas especificam distribuições conjuntas de probabilidade condicional. Eles também são conhecidos como Redes de Crença, Redes Bayesianas ou Redes Probabilísticas.

  • Uma Rede de Crenças permite que independências condicionais de classe sejam definidas entre subconjuntos de variáveis.

  • Ele fornece um modelo gráfico de relacionamento causal no qual o aprendizado pode ser realizado.

  • Podemos usar uma Rede Bayesiana treinada para classificação.

Existem dois componentes que definem uma Rede de Crenças Bayesiana -

  • Gráfico acíclico direcionado
  • Um conjunto de tabelas de probabilidade condicional

Gráfico Acíclico Direcionado

  • Cada nó em um gráfico acíclico direcionado representa uma variável aleatória.
  • Essas variáveis ​​podem ser discretas ou de valor contínuo.
  • Essas variáveis ​​podem corresponder ao atributo real fornecido nos dados.

Representação gráfica acíclica dirigida

O diagrama a seguir mostra um gráfico acíclico direcionado para seis variáveis ​​booleanas.

O arco no diagrama permite a representação do conhecimento causal. Por exemplo, o câncer de pulmão é influenciado pela história familiar de câncer de pulmão de uma pessoa, bem como pelo fato de a pessoa ser ou não fumante. É importante ressaltar que a variável PositiveXray independe de o paciente ter história familiar de câncer de pulmão ou ser tabagista, visto que sabemos que o paciente tem câncer de pulmão.

Tabela de Probabilidade Condicional

A tabela de probabilidade condicional para os valores da variável LungCancer (LC) mostrando cada combinação possível dos valores de seus nós pais, FamilyHistory (FH) e Smoker (S) é a seguinte -