Iniciar sesión / Registrar Cuenta

Almacenamiento

¿Qué es un lago de datos?

Un lago de datos es un tipo de repositorio que almacena conjuntos grandes y diversos de datos sin procesar en su formato original, y que mantiene una perspectiva general de éstos. Son una estrategia de gestión cada vez más frecuente para las empresas que desean un repositorio extenso e integral de sus datos.

Los datos sin procesar son aquellos que aún no se han analizado y tratado con un propósito en específico. Los datos que se encuentran en un lago de datos no se definen hasta que se consultan. Los analistas pueden acceder a los datos sin procesar cuando lo necesiten utilizando herramientas analíticas más avanzadas o modelos predictivos.

Con este tipo de repositorio se conservan todos los datos; no se elimina ni se filtra ninguno antes del almacenamiento. Gracias a ello se pueden analizar a la brevedad, en el futuro o nunca. También podrían utilizarse varias veces para diferentes propósitos. En cambio, cuando se procesan para un fin en particular, es difícil poder volver a utilizarlos de otra forma.

James Dixon, Director de tecnología de Pentaho, acuñó el término "lago de datos". Este tipo de repositorio se describe como un lago porque almacena un conjunto de datos en su estado natural, como una masa de agua que no se ha filtrado ni envasado. Los datos fluyen de varias fuentes hacia el lago y se almacenan en su formato original.

Los datos de un lago no se transforman hasta que sea necesario analizarlos; entonces se aplica un "esquema de lectura", que debe su nombre al hecho de que los datos no se procesan hasta que estén listos para utilizarse.

Con los lagos de datos, los usuarios pueden acceder a los datos y analizarlos como deseen, sin tener que trasladarlos a otro sistema. Por lo general, las ideas y los informes que se obtienen de un lago de datos se generan según se requiera, en lugar de extraer regularmente un informe analítico de otra plataforma u otro tipo de repositorio de datos. Sin embargo, los usuarios podrían aplicar el esquema y la automatización para posibilitar la duplicación de un informe, en caso necesario.

Los lagos de datos requieren control y mantenimiento constante, lo cual permite utilizarlos y acceder a ellos cuando sea oportuno. Sin este mantenimiento, corre el riesgo de que los datos se vuelvan inaccesibles, difíciles de manejar, costosos e inútiles. Los lagos de datos a los que los usuarios no pueden acceder se denominan "pantanos de datos".


La diferencia entre lago de datos y almacén de datos

Si bien ambos términos suelen confundirse, los lagos de datos y los almacenes de datos no son iguales y se utilizan para distintos propósitos. Ambos son repositorios de almacenamiento de datos para el big data, pero esa es la única similitud. Muchas empresas utilizarán ambos tipos de repositorios para satisfacer sus necesidades y objetivos específicos.

La principal diferencia entre un almacén de datos y un lago de datos es que el primero ofrece un modelo de datos estructurados diseñado para generar informes; el segundo almacena datos no estructurados y sin procesar, sin un propósito definido actualmente.

Para que los datos puedan colocarse en un almacén de datos, deben procesarse, así que es necesario tomar decisiones sobre los datos que se incluirán en dicho almacén, lo cual se conoce como "esquema de escritura".

Procesar los datos antes de colocarlos en un almacén puede ser difícil y requerir mucho tiempo. A veces se necesitan meses o incluso años, lo cual también impide su recopilación inmediata. En cambio con un lago puede comenzar a recopilar datos de inmediato y decidir qué hacer con ellos en el futuro.

Los analistas de las empresas y las personas que utilizan los sistemas saben de antemano qué datos necesitan para elaborar informes periódicos, así que utilizan los almacenes de datos con mayor frecuencia debido a su estructura. En cambio, los analistas utilizan más el otro tipo de repositorio, ya que realizan investigaciones utilizando los datos, y necesitan aplicarles filtros y análisis más avanzados para que puedan ser de utilidad.

Además, los lagos de datos y los almacenes de datos suelen utilizar diferentes sistemas de hardware para el almacenamiento. Los almacenes de datos pueden ser costosos, mientras que los lagos de datos siguen siendo económicos, pese a su gran tamaño, ya que generalmente utilizan un sistema de hardware básico.


La arquitectura del lago de datos

Un lago de datos tiene una arquitectura plana, ya que los datos pueden ser no estructurados, semiestructurados o estructurados, y recopilarse de varias fuentes en toda la empresa. En cambio, en el almacén de datos se guardan en archivos o carpetas. El lago de datos puede estar en las instalaciones o en la nube.

Debido a su arquitectura, los lagos de datos ofrecen escalabilidad masiva alcanzar los exabytes, lo cual es importante porque cuando se crea un lago de datos, generalmente no se sabe con antelación el volumen de datos que deberá albergar. Los sistemas tradicionales de almacenamiento de datos no pueden expandirse tanto.

Esta arquitectura beneficia a los analistas, que pueden extraer y analizar los datos de toda la empresa, además de compartirlos y realizar referencias cruzadas con ellos, incluidos los datos heterogéneos pertenecientes a campos diferentes, para plantear preguntas y obtener ideas nuevas. Además, pueden aprovechar el aprendizaje automático y el análisis del big data para analizar los datos que se almacenan en un lago.

A pesar de que los datos no tienen un esquema fijo antes de almacenarlos en un lago de datos, es importante tener control sobre ellos para evitar que se transformen en un pantano de datos. Los datos deben etiquetarse con los metadatos cuando se colocan en el lago, para garantizar que se pueda acceder a ellos más adelante.


¿Por qué elegir el almacenamiento de Red Hat?

Las soluciones de almacenamiento abiertas y definidas por software de Red Hat le permiten trabajar más, crecer más rápido y estar tranquilo sabiendo que sus datos, desde los documentos financieros importantes hasta el contenido multimedia, se almacenan de forma segura.

Gracias al almacenamiento definido por software, escalable y rentable, puede analizar grandes lagos de datos para obtener una mejor visión de la empresa. Todas las soluciones de almacenamiento definido por software de Red Hat se basan en la tecnología open source y aprovechan las innovaciones de la comunidad de desarrolladores, partners y clientes. Gracias a ello, usted tendrá un control exacto sobre cómo se formatea y se utiliza su almacenamiento según las cargas de trabajo, las necesidades y los entornos únicos de su empresa.

Las herramientas que necesita para el almacenamiento de datos

Plataforma de almacenamiento de objetos definida por software que también brinda interfaces para el almacenamiento en bloques y de archivos. Es compatible con las infraestructuras de nube, los repositorios multimedia, los sistemas de copia de seguridad y restauración, y los lagos de datos. Funciona particularmente bien con Red Hat OpenStack® Platform.

Diseñe sus contenedores y aloje su plataforma de aplicaciones en contenedores en una infraestructura de nube privada modular y escalable. Combine OpenStack con Red Hat Ceph Storage para obtener un almacenamiento de archivos, de objetos y en bloques que mejore el rendimiento de su nube.

Todavía queda mucho que hacer con el almacenamiento