SAS - Gráficos de dispersão

Um gráfico de dispersão é um tipo de gráfico que usa valores de duas variáveis ​​traçadas em um plano cartesiano. Geralmente é usado para descobrir a relação entre duas variáveis. No SAS, usamosPROC SGSCATTER para criar gráficos de dispersão.

Observe que criamos o conjunto de dados denominado CARS1 no primeiro exemplo e usamos o mesmo conjunto de dados para todos os conjuntos de dados subsequentes. Este conjunto de dados permanece na biblioteca de trabalho até o final da sessão SAS.

Sintaxe

A sintaxe básica para criar um gráfico de dispersão no SAS é -

PROC sgscatter  DATA = DATASET;
   PLOT VARIABLE_1 * VARIABLE_2
   / datalabel = VARIABLE group = VARIABLE;
RUN;

A seguir está a descrição dos parâmetros usados ​​-

  • DATASET é o nome do conjunto de dados.

  • VARIABLE é a variável usada do conjunto de dados.

Gráfico de dispersão simples

Em um gráfico de dispersão simples, escolhemos duas variáveis ​​do conjunto de dados e as agrupamos em relação a uma terceira variável. Também podemos rotular os dados. O resultado mostra como as duas variáveis ​​estão espalhadas noCartesian plane.

Exemplo

PROC SQL;
create table CARS1 as
SELECT make, model, type, invoice, horsepower, length, weight
FROM 
SASHELP.CARS
WHERE make in ('Audi','BMW')
;
RUN;

TITLE 'Scatterplot - Two Variables';
PROC sgscatter  DATA = CARS1;
   PLOT horsepower*Invoice 
   / datalabel = make group = type grid;
   title 'Horsepower vs. Invoice for car makers by types';
RUN;

Quando executamos o código acima, obtemos a seguinte saída -

Gráfico de dispersão com previsão

podemos usar um parâmetro de estimativa para prever a intensidade da correlação entre eles, desenhando uma elipse em torno dos valores. Usamos as opções adicionais no procedimento para desenhar a elipse como mostrado abaixo.

Exemplo

proc sgscatter data = cars1; 
compare y = Invoice  x = (horsepower length)  
         / group = type  ellipse =(alpha = 0.05 type = predicted); 
title
'Average Invoice vs. horsepower for cars by length'; 
title2
'-- with 95% prediction ellipse --'
; 
format
Invoice dollar6.0;
run;

Quando executamos o código acima, obtemos a seguinte saída -

Matriz de Dispersão

Também podemos ter um gráfico de dispersão envolvendo mais de duas variáveis ​​agrupando-as em pares. No exemplo abaixo, consideramos três variáveis ​​e desenhamos uma matriz de gráfico de dispersão. Obtemos 3 pares de matriz resultante.

Exemplo

PROC sgscatter  DATA = CARS1;
   matrix horsepower invoice length
   / group = type;

   title 'Horsepower vs. Invoice vs. Length for car makers by types';
RUN;

Quando executamos o código acima, obtemos a seguinte saída -