5. Distribuciones muestrales

1. Conceptos básicos

1. Población y Muestra

Población: La población se define como el conjunto total de elementos o individuos que comparten características específicas objeto de estudio. Por ejemplo, si nuestro interés radica en analizar los hábitos alimenticios de los estudiantes universitarios, la población correspondería a todos los estudiantes de dicha institución. Esta población representa el grupo completo del que se desea obtener información o sobre el cual se pretenden realizar generalizaciones.

Muestra: La muestra es un subconjunto de la población. Este subconjunto se selecciona para realizar el estudio porque trabajar con toda la población es generalmente impracticable. Es esencial que la muestra sea representativa de la población para que las conclusiones del estudio sean válidas.

2. Parámetro y Estadístico

Parámetro: Un parámetro es una medida descriptiva que resume alguna característica de la población completa. Ejemplos de parámetros incluyen la media poblacional (\(\mu\)), la varianza poblacional (\(\sigma^2\)), y la proporción poblacional (p). Los parámetros son generalmente desconocidos porque es difícil o imposible medir a toda la población.

Estadístico: Un estadístico es una medida descriptiva calculada a partir de una muestra. Ejemplos de estadísticos incluyen la media muestral (\(\bar{x}\)), la varianza muestral $(s^2)$, y la proporción muestral (\(\hat{p}\)). Los estadísticos se utilizan como estimaciones de los parámetros de la población.

3. Distribución Muestral

Una distribución muestral es la distribución de un estadístico (como la media, la proporción o la varianza) calculado a partir de muchas muestras diferentes de una población. Por ejemplo, si tomamos múltiples muestras de estudiantes y calculamos la media de cada muestra, la distribución de estas medias muestrales es una distribución muestral.
Esta distribución nos ayuda a entender la variabilidad de los estadísticos muestrales y nos proporciona una base para hacer inferencias sobre la población.

Distribuciones muestrales.
Imagen de elaboración propia. Distribuciones muestrales. (CC BY-NC-SA)

2. Distribución muestral de la media

Para entender cómo se obtiene la distribución muestral de la media, es importante seguir una serie de pasos que nos permitan ver cómo las medias de las muestras se distribuyen.

  • 1. Selección de la Población: Conjunto completo de todos los elementos que queremos estudiar.
    •  Ejemplo: Queremos estudiar la altura de todos los estudiantes en una universidad.
  • 2. Tomar muestras aleatorias: Una muestra es un subconjunto de la población. Debe ser seleccionada de manera aleatoria para que sea representativa de la población.
    • Ejemplo: Seleccionamos aleatoriamente grupos de 30 estudiantes de la universidad.
  • 3. Calcular la Media Muestral: Para cada muestra seleccionada, calculamos la media de los valores.
    • Fórmula: \[ \bar{X} = \frac{1}{n} \cdot \sum_{i=1}^{n} X_i \] Donde: $\bar{X}$ es la media muestral, $n$ es el tamaño de la muestra (cuántos valores tenemos en la muestra) y $X_i$ son los valores individuales de la muestra.
  • 4. Repetir el Proceso de Muestreo: Repetimos el proceso de tomar muestras y calcular la media muestral muchas veces. Idealmente, esto se haría cientos o miles de veces para tener una buena representación de la distribución muestral.
    • Ejemplo: Tomamos 1000 muestras diferentes de 30 estudiantes cada una y calculamos la media de cada muestra.
  • 5. Formar la Distribución Muestral de la Media: Después de repetir el muestreo y calcular la media muestral muchas veces, recopilamos todas las medias muestrales. La distribución de estas medias muestrales es la distribución muestral de la media.
    • Visualización: Si representamos gráficamente las medias muestrales en un histograma, veremos la forma de la distribución muestral.

Ejemplo práctico

Vamos a ilustrar estos pasos con un ejemplo concreto.

  • Paso 1: Selección de la Población: Supongamos que nuestra población son las alturas de todos los estudiantes de una universidad, con una media poblacional (μ) de 170 cm y una desviación típica (σ) de 10 cm.
  • Paso 2: Tomar muestras aleatorias: Seleccionamos aleatoriamente muestras de 30 estudiantes cada una.
  • Paso 3: Calcular la Media Muestral: Calculamos la media de las alturas en cada muestra.
  • Paso 4: Repetir el Proceso de Muestreo: Repetimos este proceso 1000 veces para obtener 1000 medias muestrales.
  • Paso 5: Formar la Distribución Muestral de la Media: Representamos gráficamente las 1000 medias muestrales en un histograma.

Histograma: El histograma de las medias muestrales mostrará una distribución que se aproxima a una normal.
El centro del histograma estará cerca de la media poblacional (170 cm en nuestro ejemplo).

Histograma de distribución de las medias muestrales.
Imagen de elaboración propia. Histograma de distribución de las medias muestrales. (CC BY-NC-SA)

Propiedades:

  • Media: La media de la distribución muestral será igual a la media de la población (\(\mu = 170\) cm).
  • Varianza: La varianza de la distribución muestral será ${\Large{\frac{\sigma^2}{n}}}$. En nuestro caso, ${\Large{\frac{10^2}{30}}} \approx 3.33$.
  • Forma: Si el tamaño de la muestra es suficientemente grande, la distribución muestral se aproximará a una distribución normal, independientemente de la forma de la población original (Teorema del Límite Central).
     

3. Teorema Central del Límite

El Teorema Central del Límite (TCL) es uno de los principios más importantes en estadística.

Establece que, independientemente de la distribución de la población de la que se toma una muestra, la distribución de las medias muestrales (\(\bar{X}\)) se aproximará a una distribución normal a medida que el tamaño de la muestra (\(n\)) aumente.
Formalmente, si \(\bar{X}_1, \bar{X}_2, \ldots, \bar{X}_k\) son las medias de \(k\) muestras aleatorias diferentes de tamaño \(n\) de una población con media \(\mu\) y desviación típica \(\sigma\), entonces la distribución de la media muestral \(\bar{X}\) se aproxima a una distribución normal con media \(\mu\) y desviación típica ${\Large{\frac{\sigma}{\sqrt{n}}}}$ cuando \(n\) es grande.


\[
\bar{X} \sim N\left(\mu \text{ ; } \frac{\sigma}{\sqrt{n}}\right) \text{ cuando } n \rightarrow \infty
\]

Teorema Central del Límite.
Imagen de elaboración propia. Teorema Central del Límite. (CC BY-NC-SA)

Continuando con el ejemplo anterior, la curva roja representa la distribución normal con media $μ=170$ y desviación típica \({\Large{\frac{10}{\sqrt{30}}}} \approx 1.83\).
Como se puede observar, las medias muestrales se ajustan bastante bien a esta distribución normal.

En la siguiente escena, puedes verificar la tesis del Teorema Central del Límite partiendo de una población con distribución uniforme. Para ello, en cada ejecución se generan gran cantidad de números aleatorios entre 0 y 100 con una cifra decimal, los cuales constituyen la población. En la parte superior, se muestra el histograma correspondiente a la población completa. Puedes observar cómo los diferentes histogramas resultantes corresponden a distribuciones uniformes, ya que presentan barras de alturas similares.

Haciendo clic en el botón 'Ver polígono de frecuencias', se añade dicho polígono al histograma. Además, puedes cambiar el número de intervalos del histograma mediante el control 'partición', al cual se le asigna inicialmente un valor de 4 (puedes introducir un valor directamente o usar las flechas hacia arriba y abajo para ajustarlo).

En la parte inferior, aparece el histograma correspondiente a la distribución de las medias muestrales del tamaño seleccionado (inicialmente de 30), obtenidas de cada una de las muestras generadas aleatoriamente a partir de la población. También puedes ajustar el tamaño muestral mediante el control 'tm'.

Observa cómo, al incrementar el tamaño muestral y afinar la partición, emerge la tendencia hacia la normalidad en la distribución de las medias muestrales.

Pulsa sobre la imagen para poder abrir el enlace a la actividad, observarás que tiene un botón arriba a la derecha para poner en pantalla completa y que se vea con más claridad:

TCL en una distribución uniforme
Autor: Juan Jesús Cañas Escamilla. . TCL en una distribución uniforme. (CC BY-NC-SA)

4. Resuelve y elige la respuesta correcta

Pregunta

Ejercicio 1.

En una universidad, la altura de los estudiantes se distribuye normalmente con una media de 170 cm y una desviación típica de 10 cm. Si se toma una muestra aleatoria de 50 estudiantes, ¿cuál es la probabilidad de que la media muestral sea menor que 168 cm?

Respuestas

0.0346

0.0778

0.1153

Retroalimentación

Pregunta

Ejercicio 2.

Una fábrica produce piezas con un peso que sigue una distribución desconocida con una media de 100 gramos y una desviación típica de 15 gramos. Si se selecciona una muestra de 40 piezas, ¿cuál es la probabilidad de que la media del peso de la muestra esté entre 98 y 102 gramos?

Respuestas

0.5992

0.4133

0.7256

Retroalimentación

Pregunta

Ejercicio 3.

El tiempo de respuesta de un centro de servicio al cliente tiene una distribución altamente sesgada con una media de 30 minutos y una desviación típica de 12 minutos. Si se toma una muestra de 100 llamadas, ¿cuál es la probabilidad de que el tiempo promedio de respuesta sea superior a 32 minutos?

Respuestas

0.0721

0.0475

0.0226

Retroalimentación

Pregunta

Ejercicio 4.

La duración de las baterías de un tipo específico sigue una distribución sesgada con una media de 20 horas y una desviación típica de 5 horas. Si se seleccionan 60 baterías, ¿cuál es la probabilidad de que la duración media muestral esté entre 19 y 21 horas?

Respuestas

0.7891

0.2253

0.8788

Retroalimentación

Pregunta

Ejercicio 5.

El peso de las bolsas de arroz producidas por una empresa sigue una distribución no normal con una media de 5 kg y una desviación típica de 0.5 kg. Si se selecciona una muestra de 45 bolsas, ¿cuál es la probabilidad de que el peso medio de la muestra esté entre 4.8 kg y 5.2 kg?

Respuestas

0.8541

0.3815

0.9926

Retroalimentación

5. Distribución muestral de la proporción

Para entender cómo se construye la distribución muestral de la proporción, sigamos un proceso detallado:

  • Selección de la Población:
    • Supongamos que queremos estudiar la proporción de individuos que poseen una característica específica en una población grande. Por ejemplo, la proporción de estudiantes zurdos en una universidad.
  • Tomar muestras aleatorias:
    • Seleccionamos aleatoriamente varias muestras de tamaño $𝑛$ de la población.
      Por ejemplo, tomamos muestras de 100 estudiantes cada una.
    • Calcular la Proporción Muestral en cada muestra:
    • Para cada muestra, contamos el número de individuos que poseen la característica de interés (por ejemplo, ser zurdo).
    • Calculamos la proporción muestral $(\hat{p})$ usando la fórmula: $ \hat{p} = {\Large{\frac{x}{n}}} $
    • Donde $x$ es el número de individuos en la muestra con la característica y $𝑛$ es el tamaño de la muestra.
  • Repetir el proceso de muestreo:
    • Repetimos este proceso muchas veces (idealmente cientos o miles) para obtener múltiples proporciones muestrales $\hat{p}$.
  • Construir la Distribución Muestral:
    • Recopilamos todas las proporciones muestrales calculadas y las representamos en un histograma.

Ejemplo Ilustrativo

Supongamos que queremos estudiar la proporción de estudiantes zurdos en una universidad. Se sabe que la proporción verdadera de estudiantes zurdos en la población (\(p\)) es 0.1 (10%).

  • Tamaño de la Muestra:
    • Tomamos múltiples muestras de tamaño \(n = 100\).
  • Calcular Proporciones Muestrales:
    • Para cada muestra, contamos el número de estudiantes zurdos (\(x\)) y calculamos la proporción muestral $\left(\hat{p} = {\Large{\frac{x}{100}}}\right)$.
  • Repetir el Muestreo:
    • Supongamos que repetimos este proceso 1000 veces, obteniendo 1000 proporciones muestrales.

Este histograma muestra cómo se distribuyen las proporciones muestrales (las 1000 muestras se han generado aleatoriamente)

Histograma distribución proporción muestral.
Imagen de elaboración propia. Histograma distribución proporción muestral.
(CC BY-NC-SA)

Aproximación a una Distribución Normal

Cuando el tamaño de la muestra (\(n\)) es suficientemente grande, y tanto \(n \cdot p\) como \(n \cdot (1-p)\) son mayores que 5, la distribución muestral de la proporción muestral se aproximará a una distribución normal. Esto se debe al Teorema Central del Límite, que indica que la suma de variables aleatorias independientes e idénticamente distribuidas tiende a una distribución normal a medida que el tamaño de la muestra aumenta.

Condiciones para la Aproximación Normal

  1. Tamaño de la muestra: \(n > 30\)
  2. Condición de las proporciones: \(n \cdot p > 5\) y \(n \cdot (1-p) > 5\)

Expresión de la Distribución Normal Aproximada

Cuando las condiciones anteriores se cumplen, la distribución muestral de la proporción muestral (\(\hat{p}\)) puede aproximarse por una distribución normal con media \(p\) y desviación típica \(\sigma_{\hat{p}}\) dada por:

\[
\hat{p} \sim N\left(p  \text{ ; } \sqrt{\frac{p \cdot (1 - p)}{n}}\right)
\]

Continuando con el ejemplo anterior, veamos cómo obtenemos la distribución normal a la que se aproxima:

Verificación de Condiciones:

  1. \(n \cdot p = 100 \cdot 0.1 = 10\)
  2. \(n \cdot (1 - p) = 100 \cdot (1 - 0.1) = 90\)

Ambas condiciones (\(n \cdot p > 5\) y \(n \cdot (1 - p) > 5\)) se cumplen.

Aproximación Normal:

La media de la distribución muestral es \(p = 0.1\).

La desviación típica de la distribución muestral es:
\[
\sigma_{\hat{p}} = \sqrt{\frac{p \cdot (1 - p)}{n}} = \sqrt{\frac{0.1 \cdot 0.9}{100}} = \sqrt{0.0009} = 0.03
\]

Entonces, la distribución muestral de \(\hat{p}\) se aproxima a:

\[
\hat{p} \sim N(0.1 \text{ ; } 0.03)
\]

Aquí tienes el histograma de la distribución muestral de la proporción de estudiantes zurdos con la gráfica de la distribución normal de media 0.1 y desviación estándar 0.03 superpuesta:

Histograma y distribución normal.
Imagen de elaboración propia. Histograma y distribución normal. (CC BY-NC-SA)

Como se puede observar, las proporciones muestrales se ajustan bastante bien a esta distribución normal.

6. Resuelve y elige la respuesta correcta

Pregunta

Problema 1: 

Una encuesta revela que el 40% de los consumidores prefieren una marca específica de cereales. Si se selecciona una muestra de 200 consumidores, ¿cuál es la probabilidad de que la proporción muestral de consumidores que prefieren esa marca esté entre 0.35 y 0.45?

Respuestas

0.2234

0.8530

0.9587

Retroalimentación

Pregunta

Problema 2: 

El 70% de los adolescentes usan redes sociales diariamente. Si se selecciona una muestra de 150 adolescentes, ¿cuál es la probabilidad de que la proporción muestral que usa redes sociales diariamente sea mayor al 75%?

Respuestas

0.0228

0.0901

0.1483

Retroalimentación

Pregunta

Problema 3: 

En una región, el 55% de los votantes apoyan a un candidato específico. Si se toma una muestra de 500 votantes, ¿cuál es la probabilidad de que la proporción muestral que apoya al candidato esté entre 0.52 y 0.58?

Respuestas

0.8230

0.6541

0.7910

Retroalimentación

Pregunta

Problema 4: 

Un nuevo tratamiento médico tiene una tasa de éxito del 65%. Si se selecciona una muestra de 80 pacientes, ¿cuál es la probabilidad de que la proporción muestral de éxito sea inferior al 60%?

Respuestas

0.1736

0.2587

0.3885

Retroalimentación

Pregunta

Problema 5: 

El 50% de los usuarios de teléfonos inteligentes usan aplicaciones de mensajería instantánea. Si se toma una muestra de 250 usuarios, ¿cuál es la probabilidad de que la proporción muestral que usa aplicaciones de mensajería instantánea sea mayor al 55%?

Respuestas

0.0571

0.1587

0.0413

Retroalimentación

Página 6 de 11

Obra publicada con Licencia Creative Commons Reconocimiento No comercial Compartir igual 4.0

Creado con eXeLearning (Ventana nueva)