4.1 ¿Qué hacemos con tantos datos?

Diccionario

Algoritmo

Imagen que describe de un algoritmo

Definición:: Conjunto de instrucciones colocadas de forma correcta que permitan la solución de un problema.
Ejemplo:: En nuestro caso puede ser el programa que creemos para identificar una imagen.

La nube

Definición:: Conocida también como computación en la nube o nube de cómputo (traducción del término inglés cloud computing), incluso informática o servicios en la nube, es una red de dispositivos informáticos remotos conectados a internet para prestar diversos tipos de servicios de manera virtual cuando se accede a ellos.
Ejemplo: Habitualmente guardo una copia de seguridad de mis contactos en la nube porque así no la pierdo.

Petabyte

Definición:: Es una unidad de almacenamiento de información equivalente a 1000⁵ bytes. Peta viene del griego y significa cinco. Su símbolo es PB.
Ejemplo:: Google procesa unos 20 petabytes de datos al día.

Retor dice

A continuación veremos qué se entiende por datos y cómo se convierten en información valiosa.

Luego, veremos cómo se generan, transportan, almacenan y visualizan los datos.

Pero no te preocupes, te mostraré la información de una forma sencilla.

Presta mucha atención porque vas a conocer un poco más sobre los datos.

¡Vamos que empezamos!

1. Pero ¿qué diferencia hay entre dato, información y conocimiento?

Los datos se han convertido en el nuevo petróleo del siglo XXI. Debido a la gran cantidad de datos que se generan hoy en día, se puede afirmar que la sociedad actual es rica en datos y pobre de conocimiento.

A continuación, aprendamos un poco más sobre los datos.

¿Dato, información o conocimiento?

Entendemos que un dato es un valor que representa un fragmento de una descripción o palabra, cantidad o medida que por sí solo no tienen mucho significado.

Los datos son la mínima unidad de significado que por sí solos son irrelevantes y no dicen nada importante para la toma de decisiones.
Información son datos que han sido agrupados o clasificados para configurar un mensaje que puede ser entendido e interpretado por el receptor. Así que los datos sólo tienen utilidad después de ser procesados según su relevancia e interés.
Conocimiento integra los datos y la información con la experiencia, valores y personalidad, permitiendo ser aplicado por las personas en la toma de decisiones.

Estos tres términos se relacionan en la denominada pirámide del conocimiento:

Imagen que describe la pirámide del conocimiento

Ejemplos

Ejemplo 1:

Dato: 8 (por sí sólo es irrelevante).
Información: 8 provincias (el 8 tiene más sentido, se trata del número de provincias y se convierte en una información).
Conocimiento: La Comunidad Autónoma de Andalucía está compuesta por 8 provincias.

Ejemplo 2:

Dato: número de personas, sexo, edad, estudios, nivel de estudio de los habitantes de una población.
Información: con este conjunto de datos se puede generar información sobre las características de los habitantes de esa población.
Conocimiento: se combinan esta información con otras y se utilizan para la planificación de acciones concretas sobre la población en estudio.

Tipos de datos

Podemos encontrarnos distintos tipos de datos según su origen y estructura:

Imagen que representa los tipos de datos según la ordenación que presentan

Datos estructurados: aquellos que ya se diseñan, están ordenados y normalmente provienen de una misma fuente, por ejemplo datos ordenados en una hoja de cálculo, fichas estandarizadas.
Datos semiestructurados: presentan cierto orden, aunque no siguen una estructura estandarizada.
Datos no estructurados: se reciben diversos datos de distintas fuentes que no están ordenados. Se reciben por email, documentos, encuestas...
Base de datos: es un conjunto organizado de información, de datos estructurados, existiendo motores de base de datos; software que permite almacenar, buscar, extraer información de estas bases de datos.

Ciclo de vida de los datos

Se capturan los datos.
Almacenamiento de los datos.
Proceso y análisis de los datos. Aquí toca encontrar patrones, creamos un algoritmo para buscarlos o nos podemos servir del Machine Learning para encontrar patrones que ni siquiera nos imaginábamos
Exploración y visualización: todos lo datos se reportan en los patrones detectados sobre un tablero, gráfico...para que se tengan en cuenta en la toma de decisiones.

Kardia dice ¿Quieres aprender qué son los metadatos?

El térmico metadatos es usado para referirse a los datos sobre los datos. Por ejemplo cuando un sensor de temperatura envía continua lecturas de temperatura, también remite la fecha y la hora de cada lectura, siendo estos los metadatos de los datos que toma.

2. Vamos a practicar con los datos

Vamos a trabajar en pareja para poner en práctica lo que sabes sobre los datos.

Clasifica el siguiente conjunto de datos en tu cuaderno o en tu ordenador o tableta. Elige el medio que te resulte más adecuado.

Imagen de un conjunto de datos no estructurados

Lumen dice ¿Necesitas ayuda con este ejercicio?

A veces necesitamos un pequeño empujón para poder continuar, no os preocupéis.

Empieza por organizar los datos en subgrupos de forma que su contenido sea similar, puedes organizar los datos similares en columnas y nombra cada subgrupo de forma que su nombre sea representativo de su contenido.

3. Datos por todas partes

En la sociedad actual, se están generando multitud de datos de distintas fuentes constantemente.

Imaginad que hablamos de millones de correos electrónicos, fotos, vídeos, operaciones de compra y venta, mensajes de texto, etc, que circulan diariamente por internet.

A continuación os propongo que veáis el siguiente vídeo sobre big data que contiene información muy interesante.

En solo 2 minutos vais a ser conscientes de la enorme cantidad de datos que generamos hoy en día, como por ejemplo:

¿Cuánto tiempo usas al día un smartphone?
¿Por medio de qué acciones generas datos en la red?
¿Por medio de qué dispositivos generamos datos en la red?

¡Increíble! Seguro que os parece muy interesante.

Cuando terminéis de ver este vídeo, os propongo que realicéis de forma individual el siguiente cuestionario. Encontraréis cinco preguntas sobre el Big Data.

5. Contribución del Internet de las cosas (IoT) a los datos masivos

A continuación os propongo que veáis el siguiente vídeo sobre la generación de datos masivos con el denominado Internet de las cosas (IoT, siglas del inglés Internet of Thing) que contiene información muy interesante.

En solo 2 minutos veréis la enorme cantidad de datos que se generan hoy en día con el denominado Internet de las cosas (IoT) y te acercarás a este nuevo concepto entendiendo, por ejemplo:

¿Qué se conoce como Internet de las cosas (IoT)?
¿Qué nos permitiría que tengamos todos los aparatos conectados a internet?
¿Cómo contribuye el Internet de las cosas al big data?

¡Increíble! Seguro que os parece muy interesante.

Cuando terminéis de ver este vídeo, os propongo que realicéis de forma individual el siguiente cuestionario. Encontraréis cinco preguntas sobre el Internet de las cosas y big data.

7. ¿Dónde se almacenan los datos?

Necesitamos almacenar la gran cantidad de datos que se generan continuamente para su posterior análisis.

Modelos de almacenamiento de datos

Se conocen varios modelos de almacenamiento de datos, entre ellos destacamos:

On premise: (en español, en las instalaciones propias, in situ) son empresas que guardan sus datos en servidores locales, dentro de equipos propios. Es un modelo costoso por el hardware, mantenimiento y espacios necesarios.
Cloud computing: (en español, servicios informáticos de la nube) son empresas que prestan el servicio de almacenamiento y proceso de estos datos. Amazon, Google y Microsoft son algunos ejemplos de empresas que prestan este servicio.
Data warehouse: (en español, almacén de datos) es un gran almacén o centro de datos gestionado por una empresa u organización, con capacidad para enormes cantidades de datos, del orden de 1 petabyte.

Imagen que describe una sala de servidores

¿Dónde almacenamos tantos datos?

A continuación os propongo que veáis el siguiente vídeo sobre el almacenamiento de datos que contiene información muy interesante.

En solo 2 minutos vais a ser conscientes de la enorme cantidad de datos que generamos hoy en día y aprenderéis otras cuestiones, como por ejemplo:

¿Que son los servidores y qué funciones cumplen?
¿Qué función cumple la nube virtual en la red?
¿Qué es un centro de datos?
¿Los centros de datos tienen alguna repercusión medioambiental?

¡Alucinante! Seguro que os parece muy interesante.

Cuando terminéis de ver este vídeo, os propongo que realicéis de forma individual el cuestionario del siguiente apartado. Serán cinco preguntas sobre el Almacenamiento de datos.

Retor dice

Espero que te haya quedado claro lo que hemos visto sobre los datos. Si aún tienes dudas, te propongo que preguntes a tu profesora o profesor, seguro que podrá ayudarte.

Ahora vamos a ver una técnica de tratamiento y extracción de datos del big data. En particular, vamos a ver el análisis y visualización de los datos, comprender qué es el scraping data y cuál es su utilidad.

Pero no te preocupes, te mostraré la información de una forma sencilla.

Presta mucha atención porque te permitirá conocer un poco más sobre el proceso de los datos masivos.

Estoy seguro que te resultará interesante.

9. Tratamiento de los datos ¿Qué es el scraping de datos?

El tratamiento de big data consiste en procesar enormes repositorios de datos con la finalidad de obtener información relevante.

Debido a la gran cantidad de datos este proceso del big data es imposible hacerlo con herramientas de bases de datos y de análisis convencionales.

Fases de proceso del big data

Los datos del big data se procesan en tres fases:

Extracción: los datos son capturados de todas las fuentes y los centralizamos.
Transformación: esta segunda fase consiste en estandarizar los datos que han sido capturados de diversas fuentes, hay que aplicarles un estándar (Data cleaning: que consiste en una técnica para limpiar los datos y homogenizarlos para que parezcan de la misma fuente. Esta fase requiere de un modelo o algoritmo, con ayuda del machine learning o aprendizaje automático.
Almacenaje: la tercera fase consiste en guardar la información, hay que almacenarla en un Data Warehouse o centro de datos para su posterior análisis.

Scraping data

Una de las técnicas usadas en la primera fase de tratamiento de los datos del big data es el scraping data (arañar datos, raspar datos, en español), se refiere a la técnica en la que un programa informático extrae datos del resultado generado por otro programa para analizarlos o utilizarlos en otra parte. Normalmente estos programas simulan la navegación de una persona en internet.

El ejemplo más utilizado es el web scraping que utiliza una aplicación informática para leer y extraer datos valiosos de sitios web de forma automatizada, simulando la navegación web que haría una persona. En el caso de búsqueda de imágenes, el proceso se denomina Image Scraping.

Imagen que representa la búsqueda de datos en la web

El web scraping se utiliza para recopilar datos de contacto, tales como direcciones de correo electrónico o números de teléfono, o información especial como términos de búsqueda o URL, con gran rapidez. En el ámbito profesional, es scraping se utiliza para conseguir ventajas con respecto a la competencia.

El buscador de Google utiliza la tecnología de web scraping para mostrar información metereológica o comparaciones de precios de vuelos y hoteles.

Muchos portales de comparación de precios también utilizan el scraping para representar información de otros proveedores y sitios web.

¿Es legal el web scraping?

Cuidado porque el scraping no siempre es legal.

Imagen que describe la justicia y las leyes

Los autores de un scraping de datos deben tener en cuenta los derechos de propiedad intelectual y la normativa de protección de datos de los sitios web.

Por otra parte, el web scraping puede tener consecuencias negativas para algunas empresas online y sitios web, por ejemplo, puede ralentizar la velocidad de conexión del sitio web.

¿Qué es el data analytics o analítica de datos?

Se puede entender como un complemento web scraping.

Es un conjunto de tecnologías que analizan datos (extraídos de internet y propios de la organización) en busca de información valiosa en forma de patrones de comportamientos que ayuden en la toma de decisiones a una organización.

Imagen que describe el proceso de la analítica de datos

Por ejemplo a una organización le puede permitir conocer:

A qué precio está vendiendo la competencia en internet.
Cuál es la valoración de los clientes y compararlos con la competencia.
Cuándo un producto baja un precio determinado.
Extraer información de empresas de la competencia.
Conocer quiénes son los clientes que más probabilidades de irse a la competencia.
Factores que más influyen en el proceso productivo de la organización.
...

Visualización de datos del big data

Dentro del proceso de los grandes volúmenes de datos del big data suele ser de gran ayuda la representación gráfica de los mismos mediante el uso de gráficos, mapas, tablas, infografías, diagramas, etc., ya que facilita el análisis y comprensión de la información.

Existen una serie de herramientas informáticas que ayudan en esta tarea de visualización de datos del big data.

La representación gráfica de un conjunto de datos es fundamental para analizar su comportamiento, detectar tendencias, valores atípicos y patrones en los datos.

Un ejemplo de visualización de una gran cantidad de datos es la pirámide de la población empadronada en Andalucía y España a fecha 01 de enero de 2021

Imagen que representa la pirámide de población empadronada en Andalucía y España a 01-01-2021

10. Búsqueda de información

Para llegar a una meta, es conveniente que seas un buen o buena estratega. Es decir, tener métodos, técnicas, “trucos” para llegar antes o de forma más fácil donde tú quieres.
Ahora te voy a enseñar una estrategia, ¡Aprovéchala para alcanzar tu reto!

La estrategia se llama búsqueda de información y te ayudará a saber qué es lo que tienes que aprender y a qué meta tienes que llegar. Esto te va a permitir centrarte en el objetivo y hacer que todo salga mejor.

En el siguiente enlace a la guía de la competencia de aprender a aprender encontrarás toda la información sobre esta estrategia y los pasos que debes seguir para poder realizarla.
Tómate el tiempo que necesites y recuerda que siempre puedes preguntarle al docente o a algún compañero o compañera cuando no entiendas algo.

¡Ánimo, que lo harás genial!

11. Vive la experiencia de ser scrapers o raspadores de datos

El este ejercicio grupal os váis a convertir en scrapers o raspadores de datos.

Os propongo que de forma manual, navegando por sitios web, busquéis y procedáis a extraer datos sobre el precio de venta de un dispositivo electrónico que te guste en distintos sitios web. Recuerda que las fuentes deben ser fiables para que tenga validez la información extraída. Por ejemplo:

El último modelo de smartphone.
Auriculares inalámbricos.
Altavoces inalámbricos.
...

Elije uno de estos u otro que te gustaría comprar.

Crea una tabla en tu cuaderno, ordenador o tableta, en la que indiques el sitio web, precio, dirección, correo electrónico del vendedor.

¡Vamos scrapers!

Lumen dice ¿Necesitas ayuda para elegir el dispositivo?

Es muy sencillo, te muestro una plantilla que te puede ayudar a empezar con la elección del dispositivo.

Imagen de la tabla para escribir argumentos de un debate

Motus dice Participando en equipo

Esta actividad ha podido despertar en ti diferentes sentimientos que surgen de la interacción y el trabajo en equipo.

Te invito a reflexionar sobre ellos para intentar mejorar el trabajo grupal en las próximas actividades.

Intenta contestar a las siguientes cuestiones:

¿Has comprendido perfectamente la actividad planteada?
- Si
- No
  - ¿Has intentado preguntar tus dudas?
¿Te ha gustado el grupo en el que te ha tocado trabajar?
- Si
- No
  - ¿Has pensado en que todos los grupos eran igual de necesarios en la actividad?
¿Ha habido algún conflicto dentro de tu grupo?
- No
- Si
  - ¿Has ayudado en la solución del problema?

Cada persona del grupo tiene algo que le hace especial y que aporta a los demás. Esto hace que el trabajo en grupo sea siempre mejor. Pero, a veces, surgen algunos problemas. Por ello, reflexionar sobre cómo te sientes en el grupo y cuáles pueden ser las mejoras, te ayudará a poder aprender más y responder mejor a las actividades.

¡Recuerda que en el trabajo en grupo lo más importante es estar dispuesto a ayudar!

12. ¿Qué he aprendido sobre los datos?

En este apartado hemos estudiado muchos aspectos relacionados con los datos, como por ejemplo:

Concepto de dato, información y conocimiento.
Características de los datos.
Tipos de datos.
Generación, almacenamiento y visualización de los datos.
Extracción de datos de distintas fuentes.
Uso de los datos.
...

Ahora te propongo dos actividades para poner en práctica todo lo aprendido. Elige la que más te guste, aunque si quieres también puedes hacer las dos.

Opción A: Lo esencial

Vamos a refrescar esa memoria.

Se trata de que intentes recordar lo que sabes sobre las siguientes cuestiones:

¿Serías capaz de nombrar un tipo de dato? Puedes expresarlo con tus palabras.
¿Recuerdas la diferencia datos, información y conocimiento?
¿Recuerdas que se entiende por scraping data?

Opción B: Los datos

Como te puedes imaginar, nuestros datos son muy valiosos para las empresas. Esto hace que debamos de plantearnos algunas cuestiones importantes.

Este ejercicio va sobre esto. Te planteo una situación real para que reflexiones sobre la importancia de los datos:

¿Alguna vez, has recibido una sugerencia de compra y has tenido la sensación de que te estaban espiando cuando has navegado en la red? Las empresas han recopilado tus gustos de navegación para personalizar tus anuncios publicitarios. Describe una situación en la que te ha pasado algo así.

Obra publicada con Licencia Creative Commons Reconocimiento No comercial Compartir igual 4.0

Algoritmo

La nube

Petabyte

¿Dato, información o conocimiento?

Ejemplos

Tipos de datos

Ciclo de vida de los datos

Pregunta

Respuestas

Pregunta

Respuestas

Pregunta

Respuestas

Pregunta

Respuestas

Pregunta

Respuestas

Pregunta

Respuestas

Pregunta

Respuestas

Pregunta

Respuestas

Pregunta

Respuestas

Pregunta

Respuestas

Modelos de almacenamiento de datos

¿Dónde almacenamos tantos datos?

Pregunta

Respuestas

Pregunta

Respuestas

Pregunta

Respuestas

Pregunta

Respuestas

Pregunta

Respuestas

Fases de proceso del big data

Scraping data

¿Es legal el web scraping?

¿Qué es el data analytics o analítica de datos?

Visualización de datos del big data