2.2 Ordenar datos por intervalos

Anteriormente hemos trabajado con variables cualitativas y cuantitativas discretas, pero ¿qué pasa con las continuas? La dificultad que tienen las variables continuas, al agrupar por frecuencias, lo puedes comprobar con el siguiente ejemplo.

Imagen de Marco Arnhold en Flickr. Licencia CC

En una pequeña empresa van a encargar una serie de batas de almacén para sus empleados. Como les ofrecen las batas de varias medidas distintas en cuanto al largo, y para que no haya mucha disparidad, deciden hacer un estudio de las alturas de sus empleados. Obtienen las siguientes medidas en centímetros:

183, 164, 159, 176, 173, 168, 155, 168, 162, 161, 172, 174, 178, 184, 160, 181, 165, 167, 163, 172, 178, 161, 158, 170, 179

No vamos a ser tan "crueles" de pedirte que hagas una tabla de frecuencias con esos valores tal como están. Si pretendieras hacerla te encontrarías con que hay muchos valores distintos, en concreto desde el menor valor (155) hasta el mayor (184) hay 30 valores distintos, pero además muchos de ellos no aparecen ninguna vez, por ejemplo el 156 o el 175. Por tanto, tendrías una tabla muy grande con bastantes valores de frecuencia nula.

Cuando nos encontramos en un caso como este lo que se hace es agrupar los datos en un intervalo semicerrado. De esa forma se cuentan las frecuencias absolutas del intervalo. La forma de trabajar es la siguiente. Se cuentan cuántos valores distintos hay entre el valor mayor y el menor (en nuestro caso ya hemos visto que 30) y se dividen proporcionalmente en el número de intervalos que queramos conseguir. Lo usual es que el número de intervalos no sea menor que cinco ni mayor que diez.

Si en este caso quisiéramos tener cinco intervalos necesitaríamos que su amplitud fuese de 6 centímetros cada uno. Entonces construiríamos la siguiente tabla.

Lo primero es calcular la frecuencia absoluta. Para ello sólo hay que tener en cuenta un detalle importante. Los intervalos son cerrados por la izquierda y abiertos por la derecha, quiere decir que si tienes un valor que corresponde con donde termina un intervalo y empieza el siguiente, ese valor debes contarlo en el segundo intervalo y no en el primero. Esta es una norma que se sigue usualmente, lo que debe quedarte claro es que no puedes contarla en ambos intervalos o estarías duplicando los valores y te saldrían más valores de los que has recogido.

Una vez que tengas la frecuencia absoluta, el resto se calcula como en los apartados anteriores. Sólo hay un concepto nuevo en esta ocasión que te definimos en el siguiente importante y que lo utilizaremos sobre todo en la unidad siguiente a la hora de calcular los parámetros.

Importante

Cuando la variable estadística es cuantitativa continua, los valores que toma se agrupan en intervalos. Deben tomarse todos los intervalos de la misma amplitud y de forma que recojan todos los valores posibles, desde el menor al mayor. Cuando un dato es el que sirve de división para pasar de un intervalo al siguiente, sólo se contabiliza en el segundo intervalo.

Se llama marca de clase de un intervalo al valor medio del intervalo. Se calcula sumando los extremos y dividiendo entre dos. Se suele considerar que los valores que están dentro del intervalo se distribuyen a un lado y otro de la marca y equivale en total como si todos los valores del intervalo valiesen lo mismo que la marca de clase. Por eso lo vamos a representar por x ya que va a sustituir al valor de la variable en el caso de las discretas.

Reflexiona

En mi barrio acaban de abrir una pequeña pescadería. El dueño, para saber cuanto pescado debe traer y que no le sobre mucho, decide hacer un estudio para saber cuantos kilos de pescado vende en el primer mes. Las cantidades totales en los días que está abierto, redondeadas a kilos, han sido las siguientes:

13, 25, 28, 31, 24, 46, 15, 20, 32, 19, 28, 18, 21, 31, 25, 29, 35, 18, 27, 33, 26, 35, 43, 20, 28, 41, 23

Construye una tabla de frecuencias que tenga 5 intervalos de la misma amplitud, comenzando en el valor más pequeño que aparece, escribe en la segunda columna la marca de clase. Completa la tabla con todas las frecuencias y % que hemos visto.

Caso práctico

En una biblioteca se ha realizado una encuesta entre los usuarios sobre los libros que se han leído en el último mes:

4,1,3,10,5,2,2,5,1,19,8,3,5,15,2,1,1,1,6,3,2,12,3,7,6,3,4,1,10,7,11,6,7,12,4,2,8,

5,9,3,6,8,2,1,12,9,8,5,2,3,3,4,3,7,9,1,4,9,5,8,6,12,17,3,9,6,7,5,5,3,9,7,8,11,2.