Saltar la navegación

4.1 ¿Qué hacemos con tantos datos?

Diccionario

Algoritmo

Imagen que describe de un algoritmo

Definición:

Conjunto de instrucciones colocadas de forma correcta que permitan la solución de un problema.

Ejemplo:

En nuestro caso puede ser el programa que creemos para identificar una imagen.

La nube

Imagen que describe los servicios y recursos disponibles en la nube

Definición:

Conocida también como computación en la nube o nube de cómputo (traducción del término inglés cloud computing), incluso informática o servicios en la nube, es una red de dispositivos informáticos remotos conectados a internet para prestar diversos tipos de servicios de manera virtual cuando se accede a ellos.

Ejemplo

Habitualmente guardo una copia de seguridad de mis contactos en la nube porque así no la pierdo.

Petabyte

Imagen que representa los datos que se almacenan hasta alcanzar un petabyte

Definición:

Es una unidad de almacenamiento de información equivalente a 1000⁵ bytes. Peta viene del griego y significa cinco. Su símbolo es PB.

Ejemplo:

Google procesa unos 20 petabytes de datos al día.

Retor dice

A continuación veremos qué se entiende por datos y cómo se convierten en información valiosa.

Luego, veremos cómo se generan, transportanalmacenan y visualizan los datos.

Pero no te preocupes, te mostraré la información de una forma sencilla.

Presta mucha atención porque vas a conocer un poco más sobre los datos.

¡Vamos que empezamos!

1. Pero ¿qué diferencia hay entre dato, información y conocimiento?

Los datos se han convertido en el nuevo petróleo del siglo XXI.  Debido a la gran cantidad de datos que se generan hoy en día, se puede afirmar que la sociedad actual es rica en datos y pobre de conocimiento.

A continuación, aprendamos un poco más sobre los datos.

¿Dato, información o conocimiento?

Entendemos que un dato es un valor que representa un fragmento de una descripción o palabra, cantidad o medida que por sí solo no tienen mucho significado

  • Los datos son la mínima unidad de significado que por sí solos son irrelevantes y no dicen nada importante para la toma de decisiones.
  • Información son datos que han sido agrupados o clasificados para configurar un mensaje que puede ser entendido e interpretado por el receptor. Así que los datos sólo tienen utilidad después de ser procesados según su relevancia e interés.
  • Conocimiento integra los datos y la información con la experiencia, valores y personalidad, permitiendo ser aplicado por las personas en la toma de decisiones.

Estos tres términos se relacionan en la denominada pirámide del conocimiento:

Imagen que describe la pirámide del conocimiento

Ejemplos

Ejemplo 1:

  • Dato: 8 (por sí sólo es irrelevante).
  • Información: 8 provincias (el 8 tiene más sentido, se trata del número de provincias y se convierte en una información).
  • Conocimiento: La Comunidad Autónoma de Andalucía está compuesta por 8 provincias. 

Ejemplo 2:

  • Dato: número de personas, sexo, edad, estudios, nivel de estudio de los habitantes de una población.
  • Información: con este conjunto de datos se puede generar información sobre las características de los habitantes de esa población.
  • Conocimiento: se combinan esta información con otras y se utilizan para la planificación de acciones concretas sobre la población en estudio. 

Tipos de datos

Podemos encontrarnos distintos tipos de datos según su origen y estructura:

Imagen que representa los tipos de datos según la ordenación que presentan

  • Datos estructurados: aquellos que ya se diseñan, están ordenados y normalmente provienen de una misma fuente, por ejemplo datos ordenados en una hoja de cálculo, fichas estandarizadas.
  • Datos semiestructurados: presentan cierto orden, aunque no siguen una estructura estandarizada.
  • Datos no estructurados: se reciben diversos datos de distintas fuentes que no están ordenados. Se reciben por email, documentos, encuestas...
  • Base de datos:  es un conjunto organizado de información, de datos estructurados, existiendo motores de base de datos; software que permite almacenar, buscar, extraer información de estas bases de datos.

Ciclo de vida de los datos

  1. Se capturan los datos.
  2. Almacenamiento de los datos.
  3. Proceso y análisis de los datos. Aquí toca encontrar patrones, creamos un algoritmo para buscarlos o nos podemos servir del Machine Learning para encontrar patrones que ni siquiera nos imaginábamos
  4. Exploración y visualización: todos lo datos se reportan en los patrones detectados sobre un tablero, gráfico...para que se tengan en cuenta en la toma de decisiones. 

Imagen de un algoritmo

Definición:

Conjunto de instrucciones colocadas de forma correcta que permitan la solución de un problema.

Ejemplo:

En nuestro caso puede ser el programa que creemos para identificar una imagen.

Kardia dice ¿Quieres aprender qué son los metadatos?

El térmico metadatos es usado para referirse a los datos sobre los datos. Por ejemplo cuando un sensor de temperatura envía continua lecturas de temperatura, también remite la fecha y la hora de cada lectura, siendo estos los metadatos de los datos que toma.

2. Vamos a practicar con los datos

Vamos a trabajar en pareja para poner en práctica lo que sabes sobre los datos.

Clasifica el siguiente conjunto de datos en tu cuaderno o en tu ordenador o tableta. Elige el medio que te resulte más adecuado.

Imagen de un conjunto de datos no estructurados

Lumen dice ¿Necesitas ayuda con este ejercicio?

A veces necesitamos un pequeño empujón para poder continuar, no os preocupéis.

Empieza por organizar los datos en subgrupos de forma que su contenido sea similar, puedes organizar los datos similares en columnas y nombra cada subgrupo de forma que su nombre sea representativo de su contenido.

3. Datos por todas partes

En la sociedad actual, se están generando multitud de datos de distintas fuentes constantemente.

Imaginad que hablamos de millones de correos electrónicos, fotos, vídeos, operaciones de compra y venta, mensajes de texto, etc, que circulan diariamente por internet.

A continuación os propongo que veáis el siguiente vídeo sobre big data que contiene información muy interesante.

En solo 2 minutos vais a ser conscientes de la enorme cantidad de datos que generamos hoy en día, como por ejemplo:

  • ¿Cuánto tiempo usas al día un smartphone?
  • ¿Por medio de qué acciones generas datos en la red?
  • ¿Por medio de qué dispositivos generamos datos en la red?

¡Increíble! Seguro que os parece muy interesante.

Cuando terminéis de ver este vídeo, os propongo que realicéis de forma individual el siguiente cuestionario. Encontraréis cinco preguntas sobre el Big Data.

4. ¿Cuánto sabes sobre los datos?

Pregunta

1. Por la gran cantidad de datos que se generan en la actualidad, se dice que estamos viviendo una...

Respuestas

a. Revolución nanotecnológica.

b. Revolución analógica.

c. Revolución de datos masivos.

d. transición entre la era analógica y digital.

Pregunta

2. Para alcanzar los 50 millones de usuarios la radio tardó...

Respuestas

a. 2 años.

b. 38 años.

c. 13 años.

d. 4 años.

Pregunta

3. La edición de un periódico digital diario contiene más palabras que las leídas por una persona del siglo XVII durante toda su vida.

Respuestas

a. Verdadero.

b. Falso.

Pregunta

4. La información que generas hoy en día en la web proviene de acciones como:

Respuestas

a. Escribir un diario en papel.

b. Caminar por la arena de la playa.

c. Salir a la calle a jugar con la pelota.

d. Subir un vídeo o foto a Instagram.

Pregunta

5. No hay tantos bits de información en el mundo como estrellas hay en el Universo.

Respuestas

a. Verdadero.

b. Falso.

Habilitar JavaScript

5. Contribución del Internet de las cosas (IoT) a los datos masivos

A continuación os propongo que veáis el siguiente vídeo sobre la generación de datos masivos con el denominado Internet de las cosas (IoT, siglas del inglés Internet of Thing) que contiene información muy interesante.

En solo 2 minutos veréis la enorme cantidad de datos que se generan hoy en día con el denominado Internet de las cosas (IoT) y te acercarás a este nuevo concepto entendiendo, por ejemplo:

  • ¿Qué se conoce como Internet de las cosas (IoT)?
  • ¿Qué nos permitiría que tengamos todos los aparatos conectados a internet?
  • ¿Cómo contribuye el Internet de las cosas al big data?

¡Increíble! Seguro que os parece muy interesante.

Cuando terminéis de ver este vídeo, os propongo que realicéis de forma individual el siguiente cuestionario. Encontraréis cinco preguntas sobre el Internet de las cosas y big data.

6. Comprueba si dominas la relación entre IoT y Big data

Pregunta

1. Se puede definir Intenet de las cosas (IoT) como un conjunto de ....

Respuestas

a. dispositivos electrónicos de última generación.

b. dispositivos cotidianos conectados en una red local.

c. dispositivos cotidianos conectados a internet.

d. dispositivos electrónicos que tengan gran velocidad de proceso de información.

Pregunta

2. Una de las tareas que nos permiten el internet de las cosas es....

Respuestas

a. Llamar por teléfono a nuestros amigos y familiares.

b. Encender y apagar las luces de casa desde cualquier punto del planeta.

c. Cocinar un bizcocho mientras se friegan los platos en el fregadero.

d. Sacar la basura al contenedor.

Pregunta

3. El internet de las cosas aunque aumentará el volumen de datos en internet no hará que el big data sea más importante.

Respuestas

a. Verdadero.

b. Falso.

Pregunta

4. Uno de los elementos imprescindible para construir el internet de las cosas son los .........

Respuestas

a. cables.

b. dispositivos electrónicos de última generación.

c. un ancho de conexión a internet bastante rápido.

d. los sensores.

Pregunta

5. Se pueden definir los sensores como un conjunto de chips capaces de medir parámetros como la localización, movimiento, temperatura,....

Respuestas

a. Verdadero.

b. Falso.

Habilitar JavaScript

7. ¿Dónde se almacenan los datos?

Necesitamos almacenar la gran cantidad de datos que se generan continuamente para su posterior análisis.

Modelos de almacenamiento de datos

Se conocen varios modelos de almacenamiento de datos, entre ellos destacamos:

  • On premise: (en español, en las instalaciones propias, in situ) son empresas que guardan sus datos en servidores locales, dentro de equipos propios. Es un modelo costoso por el hardware, mantenimiento y espacios necesarios.
  • Cloud computing: (en español, servicios informáticos de la nube) son empresas que prestan el servicio de almacenamiento y proceso de estos datos. Amazon, Google y Microsoft son algunos ejemplos de empresas que prestan este servicio.
  • Data warehouse: (en español, almacén de datos) es un gran almacén o centro de datos gestionado por una empresa u organización, con capacidad para enormes cantidades de datos, del orden de 1 petabyte.

Imagen que describe una sala de servidores

¿Dónde almacenamos tantos datos?

A continuación os propongo que veáis el siguiente vídeo sobre el almacenamiento de datos que contiene información muy interesante.

En solo 2 minutos vais a ser conscientes de la enorme cantidad de datos que generamos hoy en día y aprenderéis otras cuestiones, como por ejemplo:

  • ¿Que son los servidores y qué funciones cumplen?
  • ¿Qué función cumple la nube virtual en la red?
  • ¿Qué es un centro de datos?
  • ¿Los centros de datos tienen alguna repercusión medioambiental?

¡Alucinante! Seguro que os parece muy interesante.

Cuando terminéis de ver este vídeo, os propongo que realicéis de forma individual el cuestionario del siguiente apartado. Serán cinco preguntas sobre el Almacenamiento de datos.

Imagen que representa los datos que se almacenan hasta alcanzar un petabyte

Definición:

Es una unidad de almacenamiento de información equivalente a 1000⁵ bytes. Peta viene del griego y significa cinco. Su símbolo es PB.

Ejemplo:

Google procesa unos 20 petabytes de datos al día.

Imagen que describe los servicios y recursos disponibles en la nube

Definición:

Conocida también como computación en la nube o nube de cómputo (traducción del término inglés cloud computing), incluso informática o servicios en la nube, es una red de dispositivos informáticos remotos conectados a internet para prestar diversos tipos de servicios de manera virtual cuando se accede a ellos.

Ejemplo

Habitualmente guardo una copia de seguridad de mis contactos en la nube porque así no la pierdo.

8. ¿Recuerdas dónde se almacenan los datos?

Pregunta

1.  Una característica importante de los servidores es que...

Respuestas

a. son equipos como nuestros ordenadores personales.

b. son ordenadores con procesadores muy potentes y una gran memoria para transmitir y almacenar información.

c. son ordenadores con procesadores muy potentes pero poca memoria para transmitir y almacenar información.

d. son dispositivos parecidos a ordenadores pero con tarjetas gráficas muy potentes.

Pregunta

2. Los servidores se suelen reparar sin apagar su sistema.

Respuestas

a. Verdadero.

b. Falso.

Pregunta

3. Se habla del término "nube de datos" como estrategia para encubrir las importantes repercusiones medioambientales de esta industria.

Respuestas

a. Verdadero.

b. Falso.

Pregunta

4. ¿Cómo se pueden definir los centros de datos?

Respuestas

a. Son infraestructuras que permiten la conexión de equipos a internet.

b. Son grandes infraestructuras donde se almacenan dispositivos en desuso de los proveedores de internet.

c. Son grandes infraestructuras que cuentan con maquinaria necesaria para almacenar y procesar grandes cantidades de información.

d. Son espacios intangibles donde se almacenan todos los datos.

Pregunta

5. ¿Cuál de las siguientes afirmaciones no es verdadera?

Respuestas

a. La industria de los datos tiene un impacto ambiental tan grande como cualquier industria de gran consumo.

b. Los centros de datos suelen tener entre 25 y 40 personas trabajando directamente.

c. El número de nuevas instalaciones de centros de datos en el mundo ha parado de crecer.

d. Hay una nueva generación de centros de datos en lo que importa es la sostenibilidad medioambiental 

Habilitar JavaScript

Retor dice

Espero que te haya quedado claro lo que hemos visto sobre los datos. Si aún tienes dudas, te propongo que preguntes a tu profesora o profesor, seguro que podrá ayudarte.

Ahora vamos a ver una técnica de tratamiento y extracción de datos del big data. En particular, vamos a ver el análisis y visualización de los datos, comprender qué es el scraping data y cuál es su utilidad.

Pero no te preocupes, te mostraré la información de una forma sencilla.

Presta mucha atención porque te permitirá conocer un poco más sobre el proceso de los datos masivos.

Estoy seguro que te resultará interesante.

9. Tratamiento de los datos ¿Qué es el scraping de datos?

El tratamiento de big data consiste en procesar enormes repositorios de datos con la finalidad de obtener información relevante.

Debido a la gran cantidad de datos este proceso del big data es imposible hacerlo con herramientas de bases de datos y de análisis convencionales.

Fases de proceso del big data

Imagen que describe un centro de datos realizando una visualización de los mismos

Los datos del big data se procesan en tres fases:

  1. Extracción: los datos son capturados de todas las fuentes y los centralizamos.
  2. Transformación: esta segunda fase consiste en estandarizar los datos que han sido capturados de diversas fuentes, hay que aplicarles un estándar (Data cleaning: que consiste en una técnica para limpiar los datos y homogenizarlos para que parezcan de la misma fuente. Esta fase requiere de un modelo o algoritmo, con ayuda del machine learning o aprendizaje automático.
  3. Almacenaje: la tercera fase consiste en guardar la información, hay que almacenarla en un Data Warehouse o centro de datos para su posterior análisis.

Scraping data

Una de las técnicas usadas en la primera fase de tratamiento de los datos del big data es el scraping data (arañar datos, raspar datos, en español), se refiere a la técnica en la que un programa informático extrae datos del resultado generado por otro programa para analizarlos o utilizarlos en otra parte. Normalmente estos programas simulan la navegación de una persona en internet.

El ejemplo más utilizado es el web scraping que utiliza una aplicación informática para leer y extraer datos valiosos de sitios web de forma automatizada, simulando la navegación web que haría una persona. En el caso de búsqueda de imágenes, el proceso se denomina Image Scraping.

Imagen que representa la búsqueda de datos en la web

El web scraping se utiliza para recopilar datos de contacto, tales como direcciones de correo electrónico o números de teléfono, o información especial como términos de búsqueda o URL, con gran rapidez. En el ámbito profesional, es scraping se utiliza para conseguir ventajas con respecto a la competencia.

El buscador de Google utiliza la tecnología de web scraping para mostrar información metereológica o comparaciones de precios de vuelos y hoteles.

Muchos portales de comparación de precios también utilizan el scraping para representar información de otros proveedores y sitios web.

¿Es legal el web scraping?

Cuidado porque el scraping no siempre es legal.

Imagen que describe la justicia y las leyes

Los autores de un scraping de datos deben tener en cuenta los derechos de propiedad intelectual y la normativa de protección de datos de los sitios web.

Por otra parte, el web scraping puede tener consecuencias negativas para algunas empresas online y sitios web, por ejemplo, puede ralentizar la velocidad de conexión del sitio web.

¿Qué es el data analytics o analítica de datos?

Se puede entender como un complemento web scraping. 

Es un conjunto de tecnologías que analizan datos (extraídos de internet y propios de la organización) en busca de información valiosa en forma de patrones de comportamientos que ayuden en la toma de decisiones a una organización.

Imagen que describe el proceso de la analítica de datos

Por ejemplo a una organización le puede permitir conocer:

  1. A qué precio está vendiendo la competencia en internet.
  2. Cuál es la valoración de los clientes y compararlos con la competencia.
  3. Cuándo un producto baja un precio determinado.
  4. Extraer información de empresas de la competencia.
  5. Conocer quiénes son los clientes que más probabilidades de irse a la competencia.
  6. Factores que más influyen en el proceso productivo de la organización.
  7. ...

Visualización de datos del big data

Dentro del proceso de los grandes volúmenes de datos del big data suele ser de gran ayuda la representación gráfica de los mismos mediante  el uso de gráficos, mapas, tablas, infografías, diagramas, etc., ya que facilita el análisis y comprensión de la información.

Existen una serie de herramientas informáticas que ayudan en esta tarea de visualización de datos del big data.

La representación gráfica de un conjunto de datos es fundamental para analizar su comportamiento, detectar tendencias, valores atípicos y patrones en los datos.

Un ejemplo de visualización de una gran cantidad de datos es la pirámide de la población empadronada en Andalucía y España a fecha 01 de enero de 2021

Imagen que representa la pirámide de población empadronada en Andalucía y España a 01-01-2021

10. Búsqueda de información

Para llegar a una meta, es conveniente que seas un buen o buena estratega. Es decir, tener métodos, técnicas, “trucos” para llegar antes o de forma más fácil donde tú quieres.
Ahora te voy a enseñar una estrategia, ¡Aprovéchala para alcanzar tu reto!

La estrategia se llama búsqueda de información y te ayudará a saber qué es lo que tienes que aprender y a qué meta tienes que llegar. Esto te va a permitir centrarte en el objetivo y hacer que todo salga mejor.

En el siguiente enlace a la guía de la competencia de aprender a aprender encontrarás toda la información sobre esta estrategia y los pasos que debes seguir para poder realizarla.
Tómate el tiempo que necesites y recuerda que siempre puedes preguntarle al docente o a algún compañero o compañera cuando no entiendas algo.

¡Ánimo, que lo harás genial!

11. Vive la experiencia de ser scrapers o raspadores de datos

El este ejercicio grupal os váis a convertir en scrapers o raspadores de datos.

Os propongo que de forma manual, navegando por sitios web, busquéis y procedáis a extraer datos sobre el precio de venta de un dispositivo electrónico que te guste en distintos sitios web. Recuerda que las fuentes deben ser fiables para que tenga validez la información extraída. Por ejemplo:

  1. El último modelo de smartphone.
  2. Auriculares inalámbricos.
  3. Altavoces inalámbricos.
  4. ...

Elije uno de estos u otro que te gustaría comprar.

Crea una tabla en tu cuaderno, ordenador o tableta, en la que indiques el sitio web, precio, dirección, correo electrónico del vendedor.

¡Vamos scrapers!

Lumen dice ¿Necesitas ayuda para elegir el dispositivo?

Es muy sencillo, te muestro una plantilla que te puede ayudar a empezar con la elección del dispositivo.

Imagen de la tabla para escribir argumentos de un debate

Motus dice Participando en equipo

Esta actividad ha podido despertar en ti diferentes sentimientos que surgen de la interacción y el trabajo en equipo. 

Te invito a reflexionar sobre ellos para intentar mejorar el trabajo grupal en las próximas actividades.

Intenta contestar a las siguientes cuestiones:

  1. ¿Has comprendido perfectamente la actividad planteada?
    • Si
    • No
      • ¿Has intentado preguntar tus dudas?
  2. ¿Te ha gustado el grupo en el que te ha tocado trabajar?
    • Si
    • No
      • ¿Has pensado en que todos los grupos eran igual de necesarios en la actividad?
  3. ¿Ha habido algún conflicto dentro de tu grupo?
    • No
    • Si
      • ¿Has ayudado en la solución del problema?

Cada persona del grupo tiene algo que le hace especial y que aporta a los demás. Esto hace que el trabajo en grupo sea siempre mejor. Pero, a veces, surgen algunos problemas. Por ello, reflexionar sobre cómo te sientes en el grupo y cuáles pueden ser las mejoras, te ayudará a poder aprender más y responder mejor a las actividades.

¡Recuerda que en el trabajo en grupo lo más importante es estar dispuesto a ayudar!

12. ¿Qué he aprendido sobre los datos?

En este apartado hemos estudiado muchos aspectos relacionados con los datos, como por ejemplo:

  • Concepto de dato, información y conocimiento.
  • Características de los datos.
  • Tipos de datos.
  • Generación, almacenamiento y visualización de los datos.
  • Extracción de datos de distintas fuentes.
  • Uso de los datos.
  • ...

Ahora te propongo dos actividades para poner en práctica todo lo aprendido. Elige la que más te guste, aunque si quieres también puedes hacer las dos.

Opción A: Lo esencial

Vamos a refrescar esa memoria.

Se trata de que intentes recordar lo que sabes sobre las siguientes cuestiones:

  1. ¿Serías capaz de nombrar un tipo de dato? Puedes expresarlo con tus palabras.
  2. ¿Recuerdas la diferencia datos, información y conocimiento?
  3. ¿Recuerdas que se entiende por scraping data?

Opción B: Los datos

Como te puedes imaginar, nuestros datos son muy valiosos para las empresas. Esto hace que debamos de plantearnos algunas cuestiones importantes.

Este ejercicio va sobre esto. Te planteo una situación real para que reflexiones sobre la importancia de los datos:

¿Alguna vez, has recibido una sugerencia de compra y has tenido la sensación de que te estaban espiando cuando has navegado en la red? Las empresas han recopilado tus gustos de navegación para personalizar tus anuncios publicitarios. Describe una situación en la que te ha pasado algo así.