Métodos de classificação diversos

Aqui, discutiremos outros métodos de classificação, como Algoritmos Genéticos, Abordagem de Conjuntos Brutos e Abordagem de Conjuntos Fuzzy.

Algorítmos genéticos

A ideia de algoritmo genético é derivada da evolução natural. No algoritmo genético, em primeiro lugar, a população inicial é criada. Essa população inicial consiste em regras geradas aleatoriamente. Podemos representar cada regra por uma sequência de bits.

Por exemplo, em um determinado conjunto de treinamento, as amostras são descritas por dois atributos booleanos, como A1 e A2. E este determinado conjunto de treinamento contém duas classes, como C1 e C2.

Podemos codificar a regra IF A1 AND NOT A2 THEN C2 em uma pequena corda 100. Nesta representação de bit, os dois bits mais à esquerda representam o atributo A1 e A2, respectivamente.

Da mesma forma, a regra IF NOT A1 AND NOT A2 THEN C1 pode ser codificado como 001.

Note- Se o atributo tem K valores onde K> 2, então podemos usar os K bits para codificar os valores do atributo. As classes também são codificadas da mesma maneira.

Pontos a lembrar -

  • Com base na noção de sobrevivência do mais apto, uma nova população é formada que consiste nas regras mais aptas na população atual e também nos valores descendentes dessas regras.

  • A adequação de uma regra é avaliada por sua precisão de classificação em um conjunto de amostras de treinamento.

  • Os operadores genéticos, como crossover e mutação, são aplicados para criar descendentes.

  • No crossover, a substring do par de regras é trocada para formar um novo par de regras.

  • Na mutação, bits selecionados aleatoriamente em uma string de regra são invertidos.

Abordagem de conjunto aproximado

Podemos usar a abordagem de conjunto aproximado para descobrir a relação estrutural em dados imprecisos e com ruído.

Note- Esta abordagem só pode ser aplicada em atributos de valor discreto. Portanto, atributos de valor contínuo devem ser discretizados antes de seu uso.

A Rough Set Theory é baseada no estabelecimento de classes de equivalência dentro dos dados de treinamento fornecidos. As tuplas que formam a classe de equivalência são indiscerníveis. Isso significa que as amostras são idênticas em relação aos atributos que descrevem os dados.

Existem algumas classes nos dados do mundo real fornecidos, que não podem ser distinguidas em termos de atributos disponíveis. Podemos usar os conjuntos básicos pararoughly definir essas classes.

Para uma determinada classe C, a definição do conjunto aproximado é aproximada por dois conjuntos da seguinte forma -

  • Lower Approximation of C - A aproximação inferior de C consiste em todas as tuplas de dados que, com base no conhecimento do atributo, certamente pertencem à classe C.

  • Upper Approximation of C - A aproximação superior de C consiste em todas as tuplas, que com base no conhecimento de atributos, não podem ser descritas como não pertencentes a C.

O diagrama a seguir mostra a aproximação superior e inferior da classe C -

Abordagens de conjuntos difusos

A Teoria dos Conjuntos Fuzzy também é chamada de Teoria das Possibilidades. Esta teoria foi proposta por Lotfi Zadeh em 1965 como uma alternativa aotwo-value logic e probability theory. Essa teoria nos permite trabalhar em um alto nível de abstração. Também nos fornece os meios para lidar com medições imprecisas de dados.

A teoria dos conjuntos difusos também nos permite lidar com fatos vagos ou inexatos. Por exemplo, ser membro de um conjunto de alta renda é exato (por exemplo, se $ 50.000 é alto, então quanto $ 49.000 e $ 48.000). Ao contrário do conjunto CRISP tradicional, onde o elemento pertence a S ou a seu complemento, mas na teoria dos conjuntos difusos o elemento pode pertencer a mais de um conjunto difuso.

Por exemplo, o valor da receita $ 49.000 pertence aos conjuntos difusos médio e alto, mas em graus diferentes. A notação de conjunto difuso para este valor de renda é a seguinte -

mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96

onde 'm' é a função de pertinência que opera nos conjuntos difusos de renda_média e renda_ alta, respectivamente. Esta notação pode ser mostrada em diagrama da seguinte forma -