Marcação de parte da fala (PoS)
A marcação é um tipo de classificação que pode ser definida como a atribuição automática de descrição aos tokens. Aqui, o descritor é chamado de tag, que pode representar parte da classe gramatical, informações semânticas e assim por diante.
Agora, se falamos sobre etiquetagem de classes gramaticais (PoS), então ela pode ser definida como o processo de atribuição de uma das classes gramaticais à palavra dada. Geralmente é chamado de marcação de POS. Em palavras simples, podemos dizer que a marcação POS é uma tarefa de rotular cada palavra em uma frase com sua parte gramatical apropriada. Já sabemos que partes do discurso incluem substantivos, verbo, advérbios, adjetivos, pronomes, conjunção e suas subcategorias.
A maior parte da marcação de POS se enquadra na marcação de POS de base de regra, marcação de POS estocástico e marcação com base em transformação.
Tagging POS com base em regras
Uma das técnicas mais antigas de marcação é a marcação POS baseada em regras. Os etiquetadores baseados em regras usam dicionário ou léxico para obter possíveis marcas para etiquetar cada palavra. Se a palavra tiver mais de uma tag possível, os taggers baseados em regras usam regras escritas à mão para identificar a tag correta. A desambiguação também pode ser realizada na marcação baseada em regras, analisando as características linguísticas de uma palavra junto com suas palavras precedentes e seguintes. Por exemplo, suponha que se a palavra anterior de uma palavra for um artigo, a palavra deve ser um substantivo.
Como o nome sugere, todo esse tipo de informação na marcação de POS com base em regras é codificado na forma de regras. Essas regras podem ser:
Regras de padrão de contexto
Ou, como Expressão regular compilada em autômatos de estado finito, interseccionada com representação de sentença ambígua lexicamente.
Também podemos entender a marcação POS baseada em regras por sua arquitetura de dois estágios -
First stage - No primeiro estágio, ele usa um dicionário para atribuir a cada palavra uma lista de classes gramaticais potenciais.
Second stage - No segundo estágio, ele usa grandes listas de regras de desambiguação escritas à mão para classificar a lista em uma única classe gramatical para cada palavra.
Propriedades da marcação de PDV baseada em regras
Taggers POS baseados em regras possuem as seguintes propriedades -
Esses etiquetadores são etiquetadores orientados pelo conhecimento.
As regras na marcação de POS com base em regras são criadas manualmente.
As informações são codificadas na forma de regras.
Temos um número limitado de regras em torno de 1000.
A suavização e a modelagem de linguagem são definidas explicitamente em identificadores baseados em regras.
Marcação estocástica de PDV
Outra técnica de marcação é a marcação estocástica de PDV. Agora, a questão que se coloca aqui é qual modelo pode ser estocástico. O modelo que inclui frequência ou probabilidade (estatísticas) pode ser denominado estocástico. Qualquer número de abordagens diferentes para o problema de etiquetagem de classes gramaticais pode ser referido como etiquetador estocástico.
O etiquetador estocástico mais simples aplica as seguintes abordagens para etiquetagem POS -
Abordagem de frequência de palavras
Nessa abordagem, os etiquetadores estocásticos eliminam a ambigüidade das palavras com base na probabilidade de uma palavra ocorrer com uma marca específica. Também podemos dizer que a tag encontrada com mais frequência com a palavra no conjunto de treinamento é aquela atribuída a uma instância ambígua dessa palavra. O principal problema dessa abordagem é que ela pode gerar uma sequência inadmissível de tags.
Probabilidades de sequência de tag
É outra abordagem de etiquetagem estocástica, onde o etiquetador calcula a probabilidade de uma dada sequência de etiquetas ocorrer. É também chamada de abordagem de n-gram. É assim chamado porque a melhor marca para uma determinada palavra é determinada pela probabilidade de ocorrer com as n marcas anteriores.
Propriedades do Estocástico POST Tagging
Os etiquetadores POS estocásticos possuem as seguintes propriedades -
Esta marcação de POS é baseada na probabilidade de ocorrência de marcação.
Requer corpus de treinamento
Não haveria probabilidade para as palavras que não existem no corpus.
Ele usa diferentes corpus de teste (além do corpus de treinamento).
É a marcação de POS mais simples porque escolhe as marcações mais frequentes associadas a uma palavra no corpus de treinamento.
Tagging baseado em transformação
A marcação com base na transformação também é chamada de marcação Brill. É uma instância do aprendizado baseado em transformação (TBL), que é um algoritmo baseado em regras para marcação automática de PDV em um determinado texto. TBL, nos permite ter conhecimento linguístico de forma legível, transforma um estado em outro usando regras de transformação.
Ele tira a inspiração de ambos os identificadores explicados anteriormente - baseados em regras e estocásticos. Se observarmos semelhança entre tagger baseado em regras e tagger de transformação, então, como baseado em regras, também é baseado nas regras que especificam quais tags precisam ser atribuídas a quais palavras. Por outro lado, se vemos similaridade entre estocástico e tagger de transformação, então como estocástico, é uma técnica de aprendizado de máquina em que as regras são induzidas automaticamente a partir dos dados.
Trabalho de Aprendizagem Baseada na Transformação (TBL)
Para entender o funcionamento e o conceito de taggers baseados em transformação, precisamos entender o funcionamento do aprendizado baseado em transformação. Considere as seguintes etapas para entender o funcionamento do TBL -
Start with the solution - O TBL geralmente começa com alguma solução para o problema e funciona em ciclos.
Most beneficial transformation chosen - Em cada ciclo, o TBL escolherá a transformação mais benéfica.
Apply to the problem - A transformação escolhida na última etapa será aplicada ao problema.
O algoritmo irá parar quando a transformação selecionada na etapa 2 não adicionar mais valor ou não houver mais transformações a serem selecionadas. Esse tipo de aprendizado é mais adequado para tarefas de classificação.
Vantagens da aprendizagem baseada na transformação (TBL)
As vantagens do TBL são as seguintes -
Aprendemos um pequeno conjunto de regras simples e essas regras são suficientes para marcação.
O desenvolvimento, assim como a depuração, são muito fáceis na TBL porque as regras aprendidas são fáceis de entender.
A complexidade na marcação é reduzida porque na TBL há entrelaçamento de regras aprendidas pela máquina e geradas por humanos.
O tagger baseado em transformação é muito mais rápido do que o tagger do modelo Markov.
Desvantagens da aprendizagem baseada na transformação (TBL)
As desvantagens do TBL são as seguintes -
O aprendizado baseado em transformação (TBL) não fornece probabilidades de marcação.
Na TBL, o tempo de treinamento é muito longo, principalmente em grandes corpora.
Marcação de POS de modelo oculto de Markov (HMM)
Antes de nos aprofundarmos na marcação de HMM POS, devemos entender o conceito de Hidden Markov Model (HMM).
Modelo de Markov Oculto
Um modelo HMM pode ser definido como o modelo estocástico duplamente embutido, onde o processo estocástico subjacente está oculto. Esse processo estocástico oculto só pode ser observado por meio de outro conjunto de processos estocásticos que produzem a sequência de observações.
Exemplo
Por exemplo, uma sequência de experimentos de lançamento de moeda oculta é feita e vemos apenas a sequência de observação que consiste em cara e coroa. Os detalhes reais do processo - quantas moedas usadas, a ordem em que são selecionadas - são ocultados de nós. Ao observar essa sequência de cara e coroa, podemos construir vários HMMs para explicar a sequência. A seguir está uma forma de Modelo de Markov Oculto para este problema -
Assumimos que existem dois estados no HMM e cada um dos estados corresponde à seleção de diferentes moedas tendenciosas. A matriz a seguir fornece as probabilidades de transição de estado -
$$ A = \ begin {bmatrix} a11 e a12 \\ a21 e a22 \ end {bmatrix} $$
Aqui,
aij = probabilidade de transição de um estado para outro de i para j.
a11 + a12= 1 e a 21 + a 22 = 1
P1 = probabilidade de cara da primeira moeda, ou seja, a tendência da primeira moeda.
P2 = probabilidade de cara da segunda moeda, ou seja, o viés da segunda moeda.
Também podemos criar um modelo HMM assumindo que existem 3 moedas ou mais.
Desta forma, podemos caracterizar o HMM pelos seguintes elementos -
N, o número de estados no modelo (no exemplo acima N = 2, apenas dois estados).
M, o número de observações distintas que podem aparecer com cada estado no exemplo acima M = 2, ou seja, H ou T).
A, a distribuição de probabilidade de transição de estado - a matriz A no exemplo acima.
P, a distribuição de probabilidade dos símbolos observáveis em cada estado (em nosso exemplo P1 e P2).
I, a distribuição inicial do estado.
Uso de HMM para marcação de PDV
O processo de marcação de POS é o processo de localização da sequência de tags que provavelmente gerou uma determinada sequência de palavras. Podemos modelar esse processo de PDV usando um Hidden Markov Model (HMM), ondetags são as hidden states que produziu o observable output, ou seja, o words.
Matematicamente, na marcação de POS, estamos sempre interessados em encontrar uma sequência de tags (C) que maximize -
P (C|W)
Onde,
C = C 1 , C 2 , C 3 ... C T
W = W 1 , W 2 , W 3 , W T
Por outro lado, o fato é que precisamos de muitos dados estatísticos para estimar razoavelmente esse tipo de sequência. No entanto, para simplificar o problema, podemos aplicar algumas transformações matemáticas junto com algumas suposições.
O uso de HMM para fazer uma marcação de POS é um caso especial de interferência Bayesiana. Portanto, começaremos reafirmando o problema usando a regra de Bayes, que diz que a probabilidade condicional mencionada acima é igual a -
(PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT)) / PROB (W1,..., WT)
Podemos eliminar o denominador em todos esses casos porque estamos interessados em encontrar a sequência C que maximize o valor acima. Isso não afetará nossa resposta. Agora, nosso problema se reduz a encontrar a sequência C que maximiza -
PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT) (1)
Mesmo depois de reduzir o problema na expressão acima, seria necessária uma grande quantidade de dados. Podemos fazer suposições de independência razoáveis sobre as duas probabilidades na expressão acima para superar o problema.
Primeira Suposição
A probabilidade de uma marca depende da anterior (modelo de bigrama) ou das duas anteriores (modelo de trigrama) ou das n marcas anteriores (modelo de n-grama) que, matematicamente, podem ser explicadas da seguinte forma -
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-n+1…Ci-1) (n-gram model)
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-1) (bigram model)
O início de uma frase pode ser contabilizado assumindo uma probabilidade inicial para cada etiqueta.
PROB (C1|C0) = PROB initial (C1)
Segunda Suposição
A segunda probabilidade na equação (1) acima pode ser aproximada assumindo que uma palavra aparece em uma categoria independente das palavras nas categorias anteriores ou posteriores, que podem ser explicadas matematicamente da seguinte forma -
PROB (W1,..., WT | C1,..., CT) = Πi=1..T PROB (Wi|Ci)
Agora, com base nas duas hipóteses acima, nosso objetivo se reduz a encontrar uma sequência C que maximize
Πi=1...T PROB(Ci|Ci-1) * PROB(Wi|Ci)
Agora, a questão que se coloca aqui é se converter o problema para a forma acima realmente nos ajudou. A resposta é - sim, foi. Se tivermos um grande corpus marcado, as duas probabilidades na fórmula acima podem ser calculadas como -
PROB (Ci=VERB|Ci-1=NOUN) = (# of instances where Verb follows Noun) / (# of instances where Noun appears) (2)
PROB (Wi|Ci) = (# of instances where Wi appears in Ci) /(# of instances where Ci appears) (3)