Saltar la navegación

4.4. Dónde se guardan los datos

1. Donde están los datos

Los datos del big data se encuentran en muchos lugares diferentes, ya que son generados por una amplia variedad de dispositivos y sistemas en todo el mundo. Estos datos pueden estar almacenados en servidores y centros de datos en todo el mundo, y se pueden acceder a ellos a través de la red. Además, con la creciente popularidad de la nube, muchos datos del big data se almacenan y se procesan en plataformas en la nube, lo que facilita su acceso y uso por parte de las empresas y los usuarios.


Recuerda que si lo necesitas puedes activar los subtítulos del video.

2. Construcción de la información

Para conseguir alcanzar una meta es importante que seas un buen o buena estratega. Es decir, tener métodos, técnicas, “trucos” para llegar antes o de forma más fácil donde tú quieres.

Ahora te voy a enseñar una estrategia, ¡Aprovéchala para alcanzar tu reto!

El nombre de la estrategia es construcción de la información. En cualquiera de los apartados siempre vas a encontrar explicaciones que te serán útiles para realizar los ejercicios y actividades. La forma en la que debes hacerlo, a menudo se corresponde con el tipo de cuestión planteada. Sintetizar la información importante te ayuda a la hora de extraer conclusiones lógicas de ella y realizar con éxito las actividades y ejercicios, pero además debes conocer cómo poder actuar en cada caso y no quedarte bloqueado aun cuando sabes la respuesta. Con esta estrategia podrás convertir documentos en otros más sencillos y directos y te ayudará a comprender y memorizar la información más importante. Para poner en práctica esta estrategia, puedes intentar elaborar un resumen sobre dónde están los datos, información que has trabajado en la actividad anterior.

En el siguiente enlace a la guía de la competencia de aprender a aprender encontrarás toda la información sobre esta estrategia y los pasos que debes seguir para realizarla.

Tómate el tiempo que necesites y recuerda que siempre puedes preguntarle al docente o a alguna compañera o compañero cuando no entiendas algo.

¡Ánimo, seguro que lo haces genial!

3. Tipos de datos

Se pueden encontrar tipos de formatos de datos en Big Data clasificados de la siguiente forma:

  • Estructurados: pueden expresarse con un lenguaje cerrado, generalmente se utilizan formatos ampliamente conocidos como XML, CSV y JSON. Pueden organizarse en bases de datos relacionales.
  • No estructurados: también se conocen como datos cualitativos, por lo que no se pueden organizar por bases de datos relacionales.

Algunos formatos de los datos de los más utilizados son;

CSV

Sus siglas significan Comma Separated Values y se utilizan en el mismo terminal como .csv, que en español significa literalmente "valores separados por comas".

CSVSus ventajas más destacables son :

  • Mantiene un formato de simple lectura y visualización.
  • Puede ser embebido en otros formatos tabulados.
  • Incluye una opción de cambiar el carácter delimitador, no necesariamente tiene que ser una coma.
  • Es capaz de soportar hasta 20.000 filas por fichero.
  • Es compatible con muchas aplicaciones, por lo que incluso puedes utilizar editores de textos para su análisis.
  • Aunque es genial para utilizar en Python con Pandas, es ideal para hacer operaciones simples en R.

Excel

Es el más tradicional, pero también el más utilizado. Se identifica bajo el terminal .xlsx o .xls

Excel
  • Permite indicar fórmulas.
  • Añade fechas en formato de texto o números.
  • Incluye función de datos booleanos de verdadero y falso.
  • Son geniales para empresas que no cuentan con la disponibilidad de contratar servicios de almacenamiento estilo ERP.
  • Puede extraer y transformar información de forma básica.
  • Tiene la capacidad de crear dashboard o tablas interactivas.
  • Se pueden realizar análisis descriptivos.
  • Permite la visualización de conjuntos de datos limitados.

Sin embargo, no es una buena opción para almacenar grandes volúmenes de información.

JSON

JSONNo es muy utilizado para almacenar datos destinados al análisis, pero puede ser útil para la implementación de Machine Learning, ya que es utilizado en el desarrollo de aplicaciones con lenguaje JavaScript.

XML

XMLeXtensible Markup Language, traducido como 'Lenguaje de Marcado Extensible' principalmente se utilizan para el intercambio de datos.

  • Es un metalenguaje que permite definir lenguajes de marcas desarrollado por el World Wide Web Consortium (W3C) utilizado para almacenar datos en forma legible.
  •  Permite la compatibilidad entre sistemas para compartir la información de una manera segura, fiable y fácil.

Pandas es una librería de Python especializada en la manipulación y el análisis de datos. Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales, es como el Excel de Python.

R es un entorno y lenguaje de programación con un enfoque al análisis estadístico y el Big data.

Clavis dice Puedo ayudarte a memorizar esta información

Para conseguir alcanzar una meta es importante que seas un buen o buena estratega. Es decir, tener métodos, técnicas, “trucos” para llegar antes o de forma más fácil donde tú quieres.

Ahora te voy a enseñar una estrategia, ¡Aprovéchala para alcanzar tu reto!

El nombre de la estrategia es memorización. Cuando estás desarrollando una tarea es normal que encuentres aspectos que te resulten complicados de memorizar y que puedan llegar a bloquearte si no sabes tratarlos adecuadamente. En esta estrategia vas a aprender a memorizar y recordar la información aplicando algunos consejos básicos que te sugieran cómo organizar tu tiempo y actuar en cada caso para superar la dificultad.

Podrás encontrar todo lo que necesitas sobre esta estrategia en los siguientes enlaces a las siguientes guías de la competencia de aprender a aprender:

Tómate el tiempo que necesites y recuerda que siempre puedes preguntarle al docente o a algún compañero o compañera cuando no entiendas algo.

¡Ánimo, seguro que lo haces genial!

4. Comprobamos los nuevos conocimientos