Python - Bigrams

Algumas palavras em inglês ocorrem juntas com mais freqüência. Por exemplo - Sky High, fazer ou morrer, melhor desempenho, chuva forte etc. Assim, em um documento de texto, podemos precisar identificar esse par de palavras que ajudarão na análise de sentimento. Primeiro, precisamos gerar esses pares de palavras a partir da frase existente para manter suas sequências atuais. Esses pares são chamados de bigramas. Python tem uma função bigram como parte da biblioteca NLTK que nos ajuda a gerar esses pares.

Exemplo

import nltk
word_data = "The best performance can bring in sky high success."
nltk_tokens = nltk.word_tokenize(word_data)  	
print(list(nltk.bigrams(nltk_tokens)))

Quando executamos o programa acima, obtemos a seguinte saída -

[('The', 'best'), ('best', 'performance'), ('performance', 'can'), ('can', 'bring'), 
('bring', 'in'), ('in', 'sky'), ('sky', 'high'), ('high', 'success'), ('success', '.')]

Esse resultado pode ser usado em descobertas estatísticas sobre a frequência de tais pares em um determinado texto. Isso se correlacionará com o sentimento geral das descrições presentes no corpo do texto.