1.1 Estudio de la Correlación

Nubes
Fotografía en Flickr de
Kevin Dooley bajo CC

¿Recuerdas las nubes de puntos del apartado anterior? Con ellas podíamos determinar si había algún tipo de relación o dependencia entre dos variables, y en ese caso decidir si la relación era positiva o negativa (al aumentar la primera, aumentaba o disminuía respectivamente la segunda).

Esta relación la definiremos como correlación. Y esta puede ser:

  • Correlación funcional: si existe una relación funcional entre las variables X e Y. Es decir, podemos calcular los valores de Y a partir de los de X, con una función.

  • Correlación positiva o directa: existe cierta relación entre ambas variables, y al aumentar los valores de X también aumentan los de Y.

  • Correlación negativa o inversa: existe cierta relación entre las variables, pero al aumentar los valores de X disminuyen los de Y.

  • Correlación nula: no existe ningún tipo de relación entre ambas.

Observa ahora las dos siguientes gráficas obtenidas al hacer el mismo estudio sobre dos poblaciones diferentes.

Nube de puntos Nube de puntos

Como puedes ver, en ambas la correlación es positiva. Pero, ¿crees que en los dos casos existe la misma dependencia entre las variables? Por lo que se puede apreciar en las gráficas, en el Estudio A la dependencia parece ser más fuerte que en el Estudio B. Por tanto, debe existir alguna forma para medir la correlación.

A continuación, definiremos dos parámetros, la covarianza y el coeficiente de correlación lineal, que nos servirán para establecer esta medida.

Covarianza

Al igual que teníamos en el tema anterior medidas que nos ayudaban a interpretar los datos de una distribución unidimensional, en las bidimensionales tenemos la covarianza, que nos permite saber si la relación entre las variables es directa o inversa, y si dicha relación puede ser lineal o no.

Importante

La covarianza de una variable bidimensional (X,Y), que representaremos por , es una medida estadística que se calcula usando una de las expresiones:

Tablas simples
Tablas de doble entrada
Covarianza Covarianza tablas de doble entrada

 

donde indica el tamaño de la muestra.

 

Interpretación: el signo de la covarianza nos permitirá saber el tipo de correlación:

    • Si la covarianza es positiva, la correlación será directa.

 

  • Si la covarianza es negativa, la correlación será inversa.

En la siguiente presentación puedes ver cómo calcularemos la covarianza a partir de una tabla simple.

 


Presentación en Slideshare de Saúl Valverde
 
 
 
Si aún así las fórmulas te parecen muy complicadas, no te preocupes que seguro que con estos dos ejemplos lo vas a entender. En el primero tenemos una tabla simple, con únicamente cinco datos y en el segundo vamos a tener una tabla de doble entrada:
 

Ejemplo o ejercicio resuelto

En un estudio sociológico se está analizando el nivel de estudios de la población y el salario mensual de estos. Los datos obtenidos se reflejan en esta tabla:

Nivel de estudios
1 2
3
4
5
Salario medio (€)
700
940
1.120
1.300
2.180

donde 1=Sin titulación, 2=Estudios secundarios, 3=Técnicos de grado medio, 4= Bachillerato y 5=Técnicos superiores o licenciados.

¿Cuál es el valor de la covarianza?

 

A la salida de un restaurante se hace una encuesta en la que se pregunta el número de persona que vienen a comer juntas, X, y la calificación de 1 a 4 que le pondrían al restaurante, Y. Los datos recogidos se han ordenado en la tabla: 

X \ Y
1
2
3
4
1 0 1 0
0
2 2 3 4
1
3 2 3 6 1
4 0 0 2
0

¿Cuál es la covarianza?

Coeficiente de correlación lineal

También llamado coeficiente de correlación de Pearson es el parámetro que nos va a decir si la correlación es débil o fuerte, además de indicarnos también si es directa o inversa dependiendo de su signo.

Importante

Para calcularlo, necesitamos conocer el valor de las desviaciones típicas marginales de cada variable σx y σy, ya que su expresión viene dada por:

Coeficiente de correlación
El valor del coeficiente de correlación lineal siempre será un número comprendido entre -1 y 1 . Su signo nos indicará el sentido de la correlación (positiva o negativa) y mientras más próximo esté su valor a 1 o -1, más fuerte será la correlación.

Interpretación: Según el valor de r, la correlación entre las dos variables será:

    • r = 0: No existe correlación (correlación nula).

 

    • r = 1 : La correlación es perfecta y positiva (correlación funcional positiva).

 

    • r = -1: La correlación es perfecta y negativa (correlación funcional negativa).

 

    • r próximo a 1: La correlación es fuerte y positiva.

 

    • r próximo a -1: La correlación es fuerte pero negativa.

 

  • r próximo a 0: La correlación es débil.

Veamos cómo calcularla con el ejemplo anterior.

 

Presentación en Slideshare por Saúl Valverde
 

Importante

El signo del coeficiente de correlación, r, es el mismo que el de la  covarianza. Así, calculando la covarianza ya podemos saber si la correlación es positiva o negativa.

AV - Pregunta de Selección Múltiple

Pregunta

Vamos a recuperar los Estudios A y B del comienzo de este apartado. Vas a calcular el coeficiente de correlación de Pearson para comprobar si el resultado se corresponde con lo que habíamos supuesto por la gráfica.

Para realizar los cálculos te daremos la suma de los totales de cada columna, como en los ejemplos anteriores. El valor de N=104.

 

ESTUDIO A

xi

yi

xiyi

xi2

yi2

TOTALES

502,2

354,56

2165,43

3336,04

1437,21

 

ESTUDIO B

xi

yi

xiyi

xi2

yi2

TOTALES

502,2

353,83

2157,92

3336,04

1451,59



Observación: por cuestión de redondeo, puede que los resultados que te ofrecemos a continuación no coincidan exactamente con los tuyos. Elige los que más se aproximen.

a) ¿Cuáles de los siguientes valores corresponden a las medias marginales de X e Y para ambos estudios?

Respuestas

Estudio A: Media X = 4,83
Estudio B: Media Y = 4,53

Estudio A: Media Y = 3,41
Estudio B: Media X = 4,83

Retroalimentación

Pregunta

b) ¿Qué valores corresponden a las desviaciones típicas marginales de X e Y para esos dos estudios?

Respuestas

Estudio A: Desviación típica de X = 2,96
Estudio B: Desviación típica de Y = 2,15

Estudio A: Desviación típica de Y = 1,48
Estudio B: Desviación típica de X = 2,96

Retroalimentación

Pregunta

c) ¿Cuáles de las siguientes covarianzas corresponden a la de esos estudios?

Respuestas

Estudio A: Covarianza = 4,36
Estudio B: Covarianza = 4,32

Estudio A: Covarianza = 4,58
Estudio B: Covarianza = 4,52

Retroalimentación

Pregunta

d) Calcula los correspondientes Coeficientes de Correlación de Pearson.

Respuestas

Estudio A: r = 0,99
Estudio B: r = 0,95

Estudio A: r = 0,97
Estudio B: r = 0,91

Retroalimentación

Pregunta

e) Por último, a la vista de los resultados, podemos afirmar que:

Respuestas

Ambos estudios tienen correlación positiva, y la del Estudio A es más fuerte que la del Estudio B.

Ambos estudios tienen correlación positiva, y la del Estudio A es más débil que la del Estudio B.

Retroalimentación

Ejemplo o ejercicio resuelto

 

Cartel anunciador de la conmemoración del día mundial del sida
Imagen de Histerica Sweet bajo CC

Una de las enfermedades que más preocupó y más alarma social creó desde finales de los 80 y la década de los 90 fue el Sida, por lo desconocido, por la inexistencia de medicamentos y vacunas para la enfermedad y por la serie de personalidades famosas de todos los ámbitos que sucumbieron ante dicha enfermedad.

 

Tenemos los siguientes datos del comportamiento de esta enfermedad en la provincia de Sevilla. En la siguiente tabla, se muestra el número de casos producidos en la provincia desde el año 92 hasta 2007.

Año 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Casos 141 187 266 273 220 175 140 138 98 111 96 95 67 74 50 22

 

De manera evidente se ve que el número de casos ha ido disminuyendo a lo largo de los años salvo algunos repuntes, pero, ¿este comportamiento es regular o es un poco aleatorio?

AV - Pregunta de Elección Múltiple

Pregunta

Cajas de pescados subastándose en la lonja
7. Imagen de castisoto bajo licencia Creative Commons

 

Vamos a resolver la siguiente situación realizando todos los pasos que hemos visto en los ejemplos resueltos:

 

 

En una cofradía de pescadores, las capturas registradas de sardinas, en kilogramos, y el precio de subasta en la lonja, en €/kg, fueron los siguientes:

 

 

Sardinas (kg) 2000 2400 2500 3000 2900 2800 3160
Precio (€/kg) 1,80 1,68 1,65 1,32 1,44 1,50 1,20

 

¿Qué relación existe entre el número de kilos capturados y el precio de venta en la lonja?

 

1) La media de los kilos de sardinas capturados es:

Respuestas

3126 kg

3024 kg

2680 kg

Retroalimentación

Pregunta

2) La desviación típica de la variable "kilos capturados" es:

Respuestas

269,07 kg

46,74 kg

-398,4 kg

372,02 kg

Retroalimentación

Pregunta

3) La media de la segunda variable, "precio de venta en la subasta del kilo de sardinas es"

Respuestas

1,49 €/kg

1,51 €/kg

1,53 €/kg

1,55 €/kg

Retroalimentación

Pregunta

4) La desviación típica de la segunda variable es:

Respuestas

0,19 €/kg

-0.19 €/kg

2,21 €/kg

-2,21 €/kg

Retroalimentación

Pregunta

5) La covarianza de la variable bidimensional (X,Y), SXY es:

Respuestas

60,78

269,07 kg

-142,678

-70,88

Retroalimentación

Pregunta

6) Si te han salido todos los cálculos anteriores, puedes comprobar que el valor del coeficiente de correlación es 0,97. A raíz de este valor, podemos decir que la dependencia entre las dos variables es negativa y:

Respuestas

Fuerte

Muy fuerte

Débil

Muy débil

Retroalimentación