Analisando Dados de Medição de Software
Depois de coletar os dados relevantes, temos que analisá-los de forma adequada. Existem três itens principais a serem considerados para a escolha da técnica de análise.
- A natureza dos dados
- O propósito do experimento
- Considerações de design
A Natureza dos Dados
Para analisar os dados, devemos também olhar para a população maior representada pelos dados, bem como a distribuição desses dados.
Amostragem, população e distribuição de dados
Amostragem é o processo de seleção de um conjunto de dados de uma grande população. As estatísticas de amostra descrevem e resumem as medidas obtidas de um grupo de sujeitos experimentais.
Os parâmetros populacionais representam os valores que seriam obtidos se todos os sujeitos possíveis fossem medidos.
A população ou amostra pode ser descrita pelas medidas de tendência central, como média, mediana e moda, e medidas de dispersão, como variância e desvio padrão. Muitos conjuntos de dados são distribuídos normalmente, conforme mostrado no gráfico a seguir.
Conforme mostrado acima, os dados serão distribuídos uniformemente sobre a média. que são as características significativas de uma distribuição normal.
Outras distribuições também existem onde os dados são distorcidos para que haja mais pontos de dados em um lado da média do que no outro. Por exemplo: se a maioria dos dados está presente no lado esquerdo da média, então podemos dizer que a distribuição está inclinada para a esquerda.
O Objetivo da Experiência
Normalmente, os experimentos são conduzidos -
- Para confirmar uma teoria
- Para explorar um relacionamento
Para atingir cada um deles, o objetivo deve ser expresso formalmente em termos da hipótese, e a análise deve abordar a hipótese diretamente.
Para confirmar uma teoria
A investigação deve ser planejada para explorar a verdade de uma teoria. A teoria geralmente afirma que o uso de um determinado método, ferramenta ou técnica tem um efeito particular sobre os sujeitos, tornando-o melhor de alguma forma do que de outra.
Existem dois casos de dados a serem considerados: normal data e non-normal data.
Se os dados forem de uma distribuição normal e houver dois grupos para comparar, o teste t de Student pode ser usado para análise. Se houver mais de dois grupos para comparar, uma análise geral de teste de variância chamada estatística F pode ser usada.
Se os dados não forem normais, eles podem ser analisados usando o teste de Kruskal-Wallis classificando-os.
Para explorar um relacionamento
As investigações são projetadas para determinar a relação entre os pontos de dados que descrevem uma variável ou várias variáveis.
Existem três técnicas para responder às perguntas sobre um relacionamento: gráficos de caixa, gráficos de dispersão e análise de correlação.
UMA box plot pode representar o resumo do intervalo de um conjunto de dados.
UMA scatter plot representa a relação entre duas variáveis.
Correlation analysis usa métodos estatísticos para confirmar se existe uma relação verdadeira entre dois atributos.
Para valores normalmente distribuídos, use Pearson Correlation Coefficient para verificar se as duas variáveis são ou não altamente correlacionadas.
Para dados não normais, classifique os dados e use o Spearman Rank Correlation Coefficientcomo uma medida de associação. Outra medida para dados não normais é oKendall robust correlation coefficient, que investiga a relação entre pares de pontos de dados e pode identificar uma correlação parcial.
Se a classificação contém um grande número de valores empatados, um chi-squared testem uma tabela de contingência pode ser usado para testar a associação entre as variáveis. Similarmente,linear regression pode ser usado para gerar uma equação para descrever a relação entre as variáveis.
Por mais de duas variáveis, multivariate regression pode ser usado.
Considerações de design
O desenho da investigação deve ser considerado na escolha das técnicas de análise. Ao mesmo tempo, a complexidade da análise pode influenciar o projeto escolhido. Grupos múltiplos usam estatísticas F em vez do teste T de Student com dois grupos.
Para experimentos fatoriais complexos com mais de dois fatores, testes mais sofisticados de associação e significância são necessários.
Técnicas estatísticas podem ser usadas para explicar o efeito de um conjunto de variáveis sobre outros, ou para compensar os efeitos de tempo ou aprendizagem.