3. Estadística bidimensional

Importante

logotipo

Pensando en la prueba...

Los problemas de regresión lineal, hasta el momento no son muy frecuentes en la prueba porque pueden resultar muy tediosos en cuestión de cálculo, sobre todo si se manejan tablas de doble entrada. Es por ello por lo que si nos encontramos con alguno, lo normal será que se trabaje sobre una tabla simple con pocos datos, como en el ejercicio resuelto. 

Para poder avanzar en este tema, es imprescindible que te defiendas con mucha soltura en la estadística unidimensional, pues se volverán a manejar conceptos como media, desviación típica...

Una Variable Estadística Bidimensional (X,Y) es el resultado del estudio de dos caracteres X e Y en los elementos de una población.

Para cada elemento de estudio obtenemos un par de valores que notaremos (xi,yi), donde xi es el valor para el factor X, e yi para el factor Y.

En una variable bidimensional (X,Y), cada una de las variables por separado (X) e (Y) constituyen variables unidimensionales estadísticas, por lo que podemos calcular sus medias y sus desviaciones típicas . A estas variables se les conoce como marginales.

Pero al igual que hacíamos con las variables estadísticas unidimensionales, antes de poder sacar conclusiones sobre la relación existente entre ellas o sobre los datos obtenidos, lo primero que debemos hacer es organizar y representar los datos. 

 

Nube de puntos
Imagen de elaboración propia
Organizar: Tablas de doble entrada

Las tablas de doble entrada son útiles en casos en los que tenemos gran cantidad de datos o en los que los pares de datos pueden aparecer repetidos, en cuyo caso trabajamos con la frecuencia . En caso contrario, hacemos uso de una tabla simple (como puedes ver en el ejercicio resuelto).

 

Representación: Nube de puntos

Se representa sobre un par de ejes cartesianos. En este caso, cada punto representa un par de datos de la variable estadística bidimensional.

Las nubes de puntos nos ayudan si existe dependencia (correlación) entre las variables que forman la distribución bidimensional.

  • Correlación funcional: si existe una relación funcional entre las variables X e Y. Es decir, podemos calcular los valores de Y a partir de los de X, con una función.

  • Correlación positiva o directa: existe cierta relación entre ambas variables, y al aumentar los valores de X también aumentan los de Y.

  • Correlación negativa o inversa: existe cierta relación entre las variables, pero al aumentar los valores de X disminuyen los de Y.

  • Correlación nula: no existe ningún tipo de relación entre ambas.

 

Esta forma de representación nos puede ayudar a intuir si la dependencia es más o menos fuerte, pero tenemos unos parámetros que nos ayudan a saber cómo será exactamente esta correlación:

  Fórmula
Interpretación
Covarianza

Covarianza tablas simples

Covarianza tablas de doble entrada

El signo de la covarianza nos permitirá saber el tipo de correlación:
  • Si la covarianza es positiva, la correlación será directa.

  • Si la covarianza es negativa, la correlación será inversa.
Coeficiente de correlación El valor del coeficiente de correlación lineal r siempre será un número comprendido entre -1 y 1.
Su signo nos indicará el sentido de la correlación (positiva o negativa) y cuanto más próximo esté su valor a 1 o -1, más fuerte será la correlación.

Pero, ¿para qué necesitamos saber si existe relación entre una variable y otra?

La principal ventaja es poder predecir posibles resultados, lo que es posible gracias a la recta de regresión, que sería la recta que mejor se adapta a la nube de puntos.

  Fórmula
Interpretación
Recta de regresión Y
sobre X
y sobre x Nos permite "predecir" valores de la variable (distribución) Y que no conozcamos sustituyendo el valor de la X.
Recta de regresión X
sobre Y
x sobre y Nos permite "predecir" valores de la variable (distribución) X que no conozcamos sustituyendo el valor de la Y.

 

Caso de estudio

logotipo

 

Curso 2009/2010

Una cooperativa aceitera quiere realizar un estudio sobre la influencia de las campañas publicitarias en sus cifras de ventas. Para ello dispone del gasto estimado en publicidad y del volumen de ventas de los últimos 5 años (ambos en miles de euros):


datos

a) Obtenga la recta de regresión de Y sobre X. ¿Cuál será el volumen de ventas si la inversión en publicidad ascendiera a 3.8 millones de euros?

b) Calcule el coeficiente de correlación lineal e interprete su valor.