Estandarizar variables en SAS

por Juan Vidal Gil
Un paso muy habitual en los procesos de analítica es la estandarización o normalización de variables. La normalización o estandarización es una técnica muy útil a la hora de comparar datos de diferentes distribuciones o que estén en unidades de medida diferentes.
Consiste en aplicar un cálculo sencillo a la variable objeto de estudio, de forma que conseguimos que los datos de la distribución normalizada tengan una media aritmética de 0 y una desviación típica de 1.
Z i= (Xi – media aritmética)/(desv. típica)
Zi es el valor normalizado y lo obtenemos restando a cada valor original Xi la media aritmética y dividiendo el resultado por la desviación típica
Es un paso previo que puede ser necesario en alguno algoritmos tales como la clusterización o las redes neuronales.
Para realizar este proceso en SAS nos basamos en el procedimiento proc standard.
Partimos del siguiente dataset de entrada:
Nos interesa estandarizar las variables: edad, antiguedad y consumo_yyyymm. Para ello:
data clientes1;
set clientes;
s_edad = edad;
s_antiguedad = antiguedad;
s_consumo_201601 = consumo_201601;
s_consumo_201602 = consumo_201602;
s_consumo_201603 = consumo_201603;
run;
PROC STANDARD DATA=clientes1 MEAN=0 STD=1 OUT=clientes2;
VAR s_edad s_antiguedad s_consumo_201601 s_consumo_201602 s_consumo_201603 ;
RUN;
Tal y como hemos realizado el proceso mantiene las antiguas variables y crea las nuevas estandarizadas:
El proceso también se puede realizar sin necesidad de escribir código utilizando la tarea correspondiente de Enterprise Guide.
Si estás interesado en formarte en SAS, te recomendamos nuestro curso on-line: https://online.datademy.es/course/sas/
Recommended Posts

Videotutorial: Integrar SAS y Python en plataforma SAS Viya
30 junio, 2020

Llamar a Phyton desde SAS
26 julio, 2019