Jump to section

¿Qué es un lago de datos?

Copiar URL

Los lagos de datos son un tipo de repositorio donde se almacenan conjuntos grandes y diversos de datos sin procesar en su formato original. Permiten obtener un panorama general de los datos. Se trata de una estrategia de gestión cada vez más frecuente en las empresas que desean almacenar los datos en un repositorio extenso e integral. 

Los datos sin procesar son aquellos que aún no se han analizado ni tratado con un propósito en particular. Los datos que se encuentran en un lago de datos no se definen hasta que se consultan. Los analistas pueden acceder a los datos sin procesar cuando lo necesiten utilizando herramientas analíticas más avanzadas o modelos predictivos.

Con este tipo de repositorio, se conservan todos los datos; no se elimina ni se filtra ninguno antes del almacenamiento. Gracias a ello, se pueden analizar a la brevedad, en el futuro o nunca. También se pueden utilizar los datos varias veces para propósitos diferentes. En cambio, cuando se procesan para un fin en particular, es difícil volver a utilizarlos de otra forma.

Datos no estructurados y sin filtrar

Fue James Dixon, director de tecnología de Pentaho, quien presentó el término "lago de datos". Se usa "lago" para describir este tipo de repositorio porque almacena conjuntos de datos en su formato original, como una masa de agua que no se ha filtrado ni envasado. Los datos fluyen desde varias fuentes hacia el lago y se almacenan en su formato original. 

Los datos de un lago solo se transforman cuando es necesario analizarlos: para ello se aplica un esquema, llamado "schema on read" (esquema en el momento de la lectura), que debe su nombre al hecho de que los datos no se procesan hasta que están listos para utilizarse. 

Acceso específico a los datos

Los lagos de datos permiten que los usuarios accedan a los datos y los analicen como deseen, sin tener que trasladarlos a otro sistema. Por lo general, la información y los informes que se obtienen de ellos se generan según se requiera, en lugar de extraer un informe analítico de otra plataforma u otro tipo de repositorio de datos de manera regular. Sin embargo, los usuarios podrían aplicar el esquema y la automatización para posibilitar la duplicación de un informe, en caso de ser necesario. 

Los lagos requieren control y mantenimiento constante para permitir el uso de los datos y el acceso a ellos. Sin el mantenimiento, se corre el riesgo de que se vuelvan inaccesibles, difíciles de manejar, costosos e inútiles. Los lagos de datos a los que los usuarios no pueden acceder se denominan "pantanos de datos".

El almacenamiento de grandes y diversos conjuntos de datos sin procesar en su formato original, como el que se realiza en un lago de datos, ofrece muchos beneficios para las empresas.

  • Se pueden ajustar. Los lagos pueden manejar grandes volúmenes de datos, tanto estructurados como semiestructurados y no estructurados, según sea necesario. Almacenan datos sin tener que contar con un esquema predefinido, lo que permite la incorporación de distintos tipos de datos y, en consecuencia, mejora el rendimiento informático. Las soluciones modernas de lagos de datos utilizan marcos informáticos distribuidos para lograr un procesamiento eficiente de grandes conjuntos de datos.
  • Los lagos de datos son una opción rentable para almacenar grandes cantidades de datos, ya que suelen utilizar soluciones de bajo costo, como el almacenamiento de objetos basado en la nube. Como poseen la estructura de un almacenamiento de datos concentrado, reducen la necesidad de conservar varias copias de los mismos datos en distintos sistemas.
  • El enfoque "schema on read" ofrece mayor flexibilidad que los almacenes de datos tradicionales. Como almacenan los datos en su formato original, poseen mayor agilidad para integrar y analizar diversos conjuntos de datos.
  • En comparación con los almacenes de datos tradicionales, el repositorio central que brinda un lago de datos facilita una visualización integral de los datos de la empresa. Esta consolidación de los datos mejora el acceso a ellos y elimina los obstáculos para el uso compartido y la colaboración.
  • El control de los datos se vuelve más sencillo con el repositorio concentrado que brindan los lagos de datos. Las funciones de control de los datos, como la gestión de los metadatos, el linaje de los datos y los controles de acceso, garantizan la calidad, la uniformidad y el cumplimiento normativo de los datos.
  • Todos estos beneficios posibilitan la generación de más  innovaciones. Los lagos de datos actúan como un entorno de pruebas (sandbox) para los analistas, quienes pueden explorar los datos y experimentar con ellos sin afectar los sistemas de producción. La incorporación más rápida de los datos a los lagos y el análisis flexible que se lleva a cabo en ellos aceleran la obtención de información, lo cual mejora la agilidad y la capacidad de respuesta a los cambios del mercado.

Estos son algunos de los casos prácticos comunes de los lagos de datos:

1. Análisis avanzado y machine learning (aprendizaje automático): la capacidad de los lagos de datos para almacenar grandes cantidades de datos en su formato original los vuelve esenciales para los análisis avanzados y el machine learning. Los lagos de datos pueden recopilar e integrar datos de diversas fuentes, como las interacciones con los clientes, la información sobre las ventas y las actividades en las redes sociales. Esto permite que los analistas de datos desarrollen modelos predictivos y aplicaciones sofisticadas de inteligencia artificial, lo que lleva a obtener información empresarial más completa y, por lo tanto, a tomar mejores decisiones.

2. Procesamiento inmediato de los datos: como los lagos admiten la incorporación y el procesamiento inmediatos de los datos, son ideales para las aplicaciones que requieren información en tiempo real, como las de transacciones financieras, detección de fraudes y supervisión operativa. Un lago de datos puede supervisar los datos de las transacciones en tiempo real, lo que permite identificar y evitar las actividades fraudulentas de manera instantánea. En las instalaciones de las fábricas, los datos inmediatos provenientes de las maquinarias permiten detectar anomalías y llevar a cabo tareas de mantenimiento predictivo para reducir el tiempo de inactividad y mejorar la eficiencia.

3. Consolidación e integración de los datos: los lagos integran los datos provenientes de varias fuentes en un único repositorio unificado y eliminan los silos de datos. Esto es especialmente útil para la creación de un panorama completo de los clientes. Una empresa de venta minorista podría combinar los datos provenientes de los historiales de compras, las interacciones del sitio web y las redes sociales para conocer mejor el comportamiento de los clientes y generar campañas de marketing personalizadas.

4. Cumplimiento de las regulaciones y control de los datos: como los lagos de datos ofrecen una solución segura y flexible para almacenar grandes cantidades de datos, garantizan el cumplimiento en tiempo real de regulaciones como el RGPD, la HIPAA y la CCPA. Esto es fundamental para sectores como el de la asistencia médica y el de las finanzas, que deben cumplir estrictos requisitos normativos de seguridad y almacenamiento de datos. 

5. Gestión de los datos de los dispositivos ubicados en el extremo de la red: los dispositivos del extremo de la red generan enormes cantidades de datos, y los lagos están preparados para almacenar y procesar esos grandes volúmenes y variedades de datos. En el extremo de la red, los datos pueden incluir lecturas de sensores, datos de medidores inteligentes y registros de dispositivos conectados. Esta función de los lagos de datos admite casos prácticos como la gestión de ciudades inteligentes, la automatización industrial y el mantenimiento predictivo.

Los lagos de datos brindan la agilidad y la adaptabilidad que se necesitan para abordar muchos casos prácticos modernos del almacenamiento y el procesamiento de datos.

Si bien ambos términos suelen confundirse, los lagos de datos y los almacenes de datos no son equivalentes y se utilizan para distintos propósitos. La única similitud entre ellos es que son repositorios de almacenamiento de datos para big data. Muchas empresas los utilizan para satisfacer sus necesidades y cumplir sus objetivos específicos. 

La principal diferencia entre un almacén de datos y un lago de datos es que el primero brinda un modelo de datos estructurados para generar informes, y el segundo almacena datos no estructurados y sin procesar sin un propósito definido en el momento. 

Los datos deben procesarse para poder colocarlos en un almacén. Se debe decidir cuáles se incluirán en él, lo que se conoce como "schema on write" (esquema durante la escritura). 

Este procesamiento de los datos antes de llevarlos a un almacén puede ser una tarea complicada y requerir mucho tiempo. A veces, se necesitan meses o años, por lo que no se pueden recopilar de inmediato. En cambio, con un lago, puede comenzar a recopilar datos al instante y decidir qué hacer con ellos en el futuro.

Debido a su estructura, los almacenes de datos son la opción ideal de los analistas empresariales y las demás personas que utilizan los sistemas, ya que saben de antemano qué datos necesitan para elaborar informes periódicos. En cambio, los analistas de datos prefieren los lagos, ya que realizan investigaciones con los datos, a los que deben aplicarles filtros y análisis más avanzados para que sean útiles.

Además, los lagos y los almacenes de datos suelen utilizar diferentes sistemas de hardware para el almacenamiento. Los almacenes de datos pueden ser costosos, mientras que los lagos de datos pueden seguir siendo económicos a pesar de su gran tamaño, ya que suelen utilizar un sistema de hardware básico.

Las soluciones de nube ofrecen capacidad de ajuste y rentabilidad, ya que las empresas pueden pagar en función de su crecimiento. Los lagos de datos que utilizan el almacenamiento en la nube  no tienen límites de expansión porque no dependen del hardware disponible en la empresa para aumentar su tamaño. Además de la capacidad de ajuste, las soluciones de nube ofrecen soluciones de rendimiento, ya que pueden ampliar o reducir su capacidad en función de la demanda. Como las soluciones de nube para los lagos de datos tienen una infraestructura flexible, son más rentables que los sistemas de hardware en las instalaciones.

Los lagos de datos en la nube ofrecen mayor acceso a los datos que otras soluciones, ya que se puede acceder a ellos desde cualquier lugar del mundo, lo cual permite que se formen equipos distribuidos. Además, como los servicios de nube se diseñan para poder integrarse a otros servicios de nube, los lagos de datos en la nube ofrecen una mejor integración de manera más sencilla.

Todas las empresas importantes en el cloud computing ofrecen servicios de lago de datos. Amazon S3 es la base de los lagos de datos en AWS. Microsoft Azure ofrece Azure Data Lake Storage. Google Cloud Storage brinda almacenamiento de objetos flexible y seguro que funciona como base para los lagos de datos en Google Cloud Platform. IBM Cloud Object Storage no solo es ideal para la creación de lagos de datos porque está diseñado para ofrecer altos niveles de durabilidad, seguridad y disponibilidad de los datos, sino también para la integración de servicios de análisis e inteligencia artificial de IBM con el fin de ofrecer soluciones de datos integrales. 

Los lagos de datos tienen una arquitectura plana, ya que los datos pueden ser no estructurados, semiestructurados o estructurados, y recopilarse de varias fuentes en toda la empresa. En cambio, en el almacén de datos, se guardan en archivos o carpetas. El lago de datos puede encontrarse en las instalaciones o en la nube.

Los lagos de datos poseen una arquitectura que admite una capacidad de expansión masiva hasta exabytes, lo cual es importante porque, en el momento de su creación, generalmente no se sabe el volumen de datos que deberán almacenar. Los sistemas tradicionales de almacenamiento de datos no pueden expandirse tanto.

Esta arquitectura representa un beneficio para los analistas, quienes pueden extraer y analizar los datos de toda la empresa, además de compartirlos y realizar referencias cruzadas con ellos, así como los datos heterogéneos pertenecientes a campos diferentes, para plantear preguntas y obtener información nueva. Además, pueden aprovechar el machine learning y el análisis de big data para examinar los datos que se almacenan en un lago. 

A pesar de que los datos no tienen un esquema fijo antes de almacenarlos en los lagos, es importante tener control sobre ellos para evitar que se transformen en pantanos de datos. Se deben etiquetar con metadatos cuando se colocan en el lago, para garantizar el acceso a ellos más adelante.

Mejore la gestión de las aplicaciones que utilizan inteligencia artificial/machine learning

En esta serie de webinars, conocerá la opinión de los especialistas sobre la manera de simplificar la implementación y la gestión del ciclo de vida de las aplicaciones que utilizan la inteligencia artificial y el machine learning, lo cual le permitirá diseñar y compartir modelos de machine learning y aplicaciones de inteligencia artificial, así como colaborar con ellos, con mayor rapidez. 

Las soluciones de almacenamiento abiertas y definidas por software de Red Hat le permiten trabajar más, crecer más rápido y tener la tranquilidad de que todos sus datos se almacenan de forma segura, desde los documentos financieros importantes hasta el contenido multimedia.

Gracias al almacenamiento definido por software, adaptable y rentable, puede analizar grandes lagos de datos para obtener información empresarial más completa. Todas las soluciones de almacenamiento definido por software de Red Hat se basan en la tecnología de open source y aprovechan las innovaciones de la comunidad de desarrolladores, partners y clientes. Gracias a ello, usted tendrá un control exacto sobre el formato y el uso del almacenamiento según las cargas de trabajo, las necesidades y los entornos únicos de su empresa.

Artículos relacionados

ARTÍCULO

¿Por qué elegir el almacenamiento de Red Hat?

Obtenga información sobre el almacenamiento definido por software y aprenda a implementar una solución de Red Hat que le proporciona flexibilidad para administrar, almacenar y compartir datos como usted quiera.

ARTÍCULO

¿Qué es el almacenamiento en la nube?

Es la organización de los datos almacenados en cierto lugar al que puede acceder cualquier persona que tenga los permisos adecuados, a través de Internet. Obtenga más información sobre su funcionamiento.

TEMA

El concepto de los servicios de datos

Los servicios de datos son conjuntos de funciones pequeñas, independientes y sin conexión directa que mejoran, organizan, comparten o calculan la información recopilada y guardada en volúmenes de almacenamiento de datos.