Data Mining - Classificação Bayesiana
A classificação bayesiana é baseada no Teorema de Bayes. Os classificadores bayesianos são os classificadores estatísticos. Classificadores bayesianos podem prever probabilidades de associação de classe, como a probabilidade de uma dada tupla pertencer a uma classe particular.
Teorema de Baye
O teorema de Bayes é nomeado após Thomas Bayes. Existem dois tipos de probabilidades -
- Probabilidade posterior [P (H / X)]
- Probabilidade anterior [P (H)]
onde X é a tupla de dados e H é alguma hipótese.
De acordo com o Teorema de Bayes,
Bayesian Belief Network
As redes de crenças bayesianas especificam distribuições conjuntas de probabilidade condicional. Eles também são conhecidos como Redes de Crença, Redes Bayesianas ou Redes Probabilísticas.
Uma Rede de Crenças permite que independências condicionais de classe sejam definidas entre subconjuntos de variáveis.
Ele fornece um modelo gráfico de relacionamento causal no qual o aprendizado pode ser realizado.
Podemos usar uma Rede Bayesiana treinada para classificação.
Existem dois componentes que definem uma Rede de Crenças Bayesiana -
- Gráfico acíclico direcionado
- Um conjunto de tabelas de probabilidade condicional
Gráfico Acíclico Direcionado
- Cada nó em um gráfico acíclico direcionado representa uma variável aleatória.
- Essas variáveis podem ser discretas ou de valor contínuo.
- Essas variáveis podem corresponder ao atributo real fornecido nos dados.
Representação gráfica acíclica dirigida
O diagrama a seguir mostra um gráfico acíclico direcionado para seis variáveis booleanas.
O arco no diagrama permite a representação do conhecimento causal. Por exemplo, o câncer de pulmão é influenciado pela história familiar de câncer de pulmão de uma pessoa, bem como pelo fato de a pessoa ser ou não fumante. É importante ressaltar que a variável PositiveXray independe de o paciente ter história familiar de câncer de pulmão ou ser tabagista, visto que sabemos que o paciente tem câncer de pulmão.
Tabela de Probabilidade Condicional
A tabela de probabilidade condicional para os valores da variável LungCancer (LC) mostrando cada combinação possível dos valores de seus nós pais, FamilyHistory (FH) e Smoker (S) é a seguinte -