2.1 Ordenar datos por elementos

Números
Imagen de Andy Schultz en Flickr. Licencia CC

¿Eres una persona aficionada a la lectura?, ¿posees muchos libros en tu casa o en tu trabajo? Aún en el caso de que no te ocurra esto, piensa en una biblioteca. Hay multitud de libros y para poder tenerlos organizados de forma que sean fácilmente accesibles, deben estar ordenados. Una de las primeras ordenaciones es agruparlos por los que son del mismo género. Algo parecido a lo que se hace con los libros es lo que vamos a hacer nosotros con los datos recogidos en una encuesta o por cualquier otro medio.

Lo que veremos en este apartado y el siguiente valdrá para las variables cualitativas y las cuantitativas discretas. En el punto 2.2 veremos que pasa con las variables cuantitativas continuas.

Se llama tabla de frecuencias a una tabla en la que se relacionan los distintos resultados de la variable con la cantidad de veces que han aparecido dichos resultados.

Los conceptos que vamos a reflejar en las tablas van a tener una representación que es necesario que conozcas. Ya hemos definido en la parte anterior qué se entiende por variable estadística: lo que estudiamos de la población. Vamos a representar la variable que se está estudiando por la letra x. Si suponemos ordenados de alguna manera los posibles valores de esa variable, llamaremos x1 al primer valor, x2 al segundo y así sucesivamente. En general, la columna donde vamos a colocar esos resultados la encabezaremos por el símbolo xi para indicar que están todos los valores, cada uno con su subíndice u orden correspondiente.

Importante

Se llama frecuencia absoluta al número de veces que aparece un determinado resultado de la variable estadística entre todos los datos que se han recogido. Vamos a representarla genéricamente por la letra f.

Si hemos entrevistado a 500 personas, de las cuales 227 han sido hombres y el resto mujeres, la frecuencia absoluta del resultado Hombres sería 227 y del resultado Mujeres sería 273.

Al lado tienes una tabla de frecuencias donde se han recogido el color de pelo de 100 personas y se han agrupado según su frecuencia absoluta. Como puedes apreciar lo único que hay que hacer es poner los resultados posibles y al lado la cantidad de veces que se han recogido esos resultados.

El número total de elementos recogidos, que debe coincidir con la suma de todas las frecuencias absolutas, suele representarse por la letra N.

Comprueba lo aprendido

Una pequeña empresa de seguros está realizando un estudio de los accidentes de tráfico que han tenido sus asegurados en el último mes, con intención de revisar el precio de las primas. Ha elegido aleatoriamente 40 asegurados y obtenido los siguientes datos.

2, 1, 3, 0, 1, 0, 0, 3, 0, 1, 4, 2, 1, 0, 0, 0, 1, 1, 2, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 1, 3, 2

Esos datos se han agrupado en la siguiente tabla de frecuencias. Rellena los huecos correspondientes.

xi fi
0
1
2
3
4

Habilitar JavaScript

Ahora imagínate que te comentan que en una empresa A trabajan 10 mujeres y en otra empresa B trabajan 15 mujeres. A simple vista parece que en la segunda empresa la representación femenina es mayor, pero si te dicen que la primera empresa tiene en total 20 empleados mientras que la segunda tiene 50 ya la deducción no parece correcta. Esto es importante a la hora de compartir resultados obtenidos por un mismo valor en distintos estudios, pues en ese caso es mejor comparar proporciones. Para ello necesitamos unos nuevos conceptos.

Importante

Se llama frecuencia relativa de un resultado al cociente entre su frecuencia absoluta y el número total de datos que se han recogido. Vamos a representarla por h. En ese caso la frecuencia relativa se calcularía como h=f/N.

El tanto por ciento de un resultado de la variable se halla multiplicando la frecuencia absoluta por 100 y dividiendo por el total o, directamente, multiplicando la frecuencia relativa por 100.

La suma de todas las frecuencias relativas debe dar uno y la suma de los % debe dar 100. Pero por problemas de redondeo, a veces se desvían un poco de esos valores. Eso no importa, pero acostúmbrate a, si no dan exacto, repasar los cálculos por si en algún lugar no te has acordado de redondear correctamente.

Reflexiona

Completa la tabla de la autoevaluación anterior añadiendo una columna para la frecuencia relativa y otra para el tanto por ciento. La frecuencia relativa exprésala redondeada con dos decimales y el tanto por ciento sin decimales.

Como ya hemos comentado anteriormente, las frecuencias que definimos pueden usarse con cualquier tipo de variable estadística. Pero hay algunas más, que complementan a las vistas, que solo se pueden utilizar cuando la variable estudiada es cuantitativa. Ello es así porque es necesario que la variable esté ordenada. Por ejemplo no tiene sentido preguntar quien tiene un color de pelo menor que rubio, pero si tiene sentido preguntar qué asegurados han tenido menos de dos accidentes, entonces se considerarían juntos los que han tenido un sólo accidente y los que no han tenido ninguno. Esa idea de agrupamiento es lo que vamos a trabajar con las frecuencias acumuladas.

Importante

Se define la frecuencia absoluta acumulada de un resultado como la suma de todas las frecuencias absolutas de ese resultado y todos lo que están antes que él. Por ejemplo si queremos saber cuantos alumnos hay en un instituto que sean menores de edad, es decir, que tengan menos de 18 años, tenemos que sumar las frecuencias absolutas de los que tienen 12, 13, 14, 15 , 16 y 17 años. La frecuencia acumulada la vamos a representar por la misma letra que la normal pero en mayúscula. En nuestro caso usaremos la letra F.

Se define la frecuencia relativa acumulada (la representamos por H) como la suma de las frecuencia relativa del resultado y de todos los anteriores. También puede obtenerse dividiendo la frecuencia absoluta acumulada entre el valor total de datos recogidos.

Se define el tanto por ciento acumulado de un resultado como la suma de todos los valores absolutos desde el primer resultado hasta el resultado elegido.

En una tienda de telefonía móvil han hecho un estudio sobre el número de teléfonos móviles que tienen en su casa, para toda la familia, los clientes que han entrado a consultar en la tienda, durante los cuatro últimos días. Con esos datos se ha creado la siguiente tabla de valores.

Comprueba lo aprendido

A partir de la tabla anterior, contesta a las siguientes preguntas:

a) El número de hogares con 3 teléfonos es de .

b) El porcentaje de familias con 4 teléfonos es de un %.

c) La proporción de hogares con menos de 5 teléfonos es de .

d) El número de hogares con 4 o más teléfonos es de .

e)  % es el porcentaje de familias con menos de 4 teléfonos.

Habilitar JavaScript

Reflexiona

Una copistería cercana a la Facultad de Económicas quiere lanzar una campaña de publicidad entre los estudiantes y para ello quiere saber cuál es la distribución de edades de sus clientes habituales. Para ello va preguntando a las personas que vienen a fotocopiar apuntes y recoge los siguientes datos entre 50 consultados:

19, 22, 25, 23, 22, 21, 19, 20, 22, 24, 24, 19, 20, 25, 21, 23, 21, 25, 19, 24, 25, 22, 23, 21, 20, 21, 19, 23, 25, 26, 21, 23, 25, 19, 20, 26, 23, 21, 24, 25, 21, 21, 25, 24, 19, 23, 21, 24, 22, 21

Agrupa los datos en una tabla de frecuencias y calcula todas las frecuencias vistas, incluyendo las acumuladas. Escribe siempre los decimales redondeados a dos cifras decimales.

En la siguiente escena del Proyecto Edad puedes practicar todos estos conceptos:

Escena de Juan Jesús Cañas Escamilla / José R. Galo Sánchez en Proyecto Descartes. Licencia CC