Visão geral
O data lake é um tipo de repositório que armazena conjuntos grandes e variados de dados brutos em formato nativo. Com os data lakes, você tem uma visão não refinada dos dados. Eles estão se tornando uma estratégia de gerenciamento de dados mais comum para empresas que desejam um repositório grande e holístico para seus dados.
Quando dizemos que os dados são brutos, é porque eles ainda não foram processados para uma finalidade específica. Os dados em um data lake são definidos só depois de serem consultados. Os cientistas de dados podem acessar os dados brutos quando necessário por meio de modelagem preditiva ou ferramentas analíticas mais avançadas.
Todos os dados são mantidos quando você usa um data lake: nada é removido ou filtrado antes do armazenamento. Os dados podem ser analisados em breve, no futuro ou nunca. Eles também podem ser usados várias vezes para diferentes finalidades, ao contrário de quando os dados são refinados para um fim específico e o reaproveitamento é mais difícil.
Dados não refinados e não estruturados
O termo "data lake" ("lago de dados", em português) foi criado por James Dixon, CTO da Pentaho. É apropriado descrever esse tipo de repositório como um lago porque ele armazena um conjunto de dados em seu estado natural, como um corpo de água que não foi filtrado ou empacotado. Os dados fluem de diversas fontes para o data lake e são armazenados no formato original.
Em um data lake, os dados são transformados apenas quando são necessários para análise, por meio da aplicação de esquemas. Esse processo é chamado de "schema on read" (esquema para leitura) porque os dados são mantidos em estado bruto até que estejam prontos para uso.
Acesso ad hoc aos dados
Com os data lakes, os usuários acessam e exploram dados da forma que quiserem, sem precisar movê-los para outro sistema. Geralmente, a coleta de insights e a geração de relatórios a partir de um data lake é ad hoc: os usuários não precisam extrair com frequência relatórios analíticos de outra plataforma ou tipo de repositório. No entanto, os usuários podem aplicar esquema e automação para possibilitar a duplicação de um relatório, se necessário.
Os data lakes exigem governança e manutenção contínuas para que os dados possam ser usados e acessados. Sem esse controle, há o risco de eles se tornarem lixo eletrônico: inacessíveis, pesados, caros e inúteis. Os data lakes que se tornam inacessíveis para os usuários são chamados de "data swamps" (pântanos de dados).
Benefícios dos data lakes
Armazenar conjuntos grandes e variados de dados brutos em seu formato nativo como um data lake traz muitas vantagens para uma organização.
- Eles são escaláveis. Os data lakes podem lidar com grandes volumes de dados, incluindo dados estruturados, semiestruturados e não estruturados, tudo em escala. Eles armazenam dados sem a necessidade de um esquema predefinido, permitindo a ingestão de diversos tipos de dados. Isso pode melhorar o desempenho da computação. As soluções modernas de data lake aproveitam frameworks de computação distribuída, o que permite o processamento eficiente de grandes conjuntos de dados.
- Os data lakes são uma opção econômica para armazenar grandes quantidades de dados porque normalmente usam soluções de armazenamento de baixo custo, como armazenamento de objetos baseado em nuvem. Estruturados como armazenamento centralizado de dados, os data lakes reduzem a necessidade de manter múltiplas cópias dos mesmos dados em diferentes sistemas.
- A abordagem de "esquema em leitura" dos data lakes oferece maior flexibilidade do que os data warehouses tradicionais. Ao armazenar dados em seu formato nativo, os data lakes têm mais agilidade para integrar e analisar diversos conjuntos de dados.
- Comparado aos data warehouses tradicionais, o repositório central fornecido por um data lake possibilita uma visão abrangente dos dados organizacionais. Essa consolidação de dados melhora o acesso aos dados e remove barreiras para compartilhamento e colaboração de dados.
- A governança de dados torna-se mais fácil com o repositório centralizado dos data lakes. Funcionalidades para governança de dados, como gerenciamento de metadados, linhagem de dados e controles de acesso, garantem a qualidade dos dados, a consistência e a conformidade com as regulamentações.
- Todos os benefícios citados geram mais inovação. Os data lakes atuam como um ambiente sandbox para que os cientistas de dados explorem e experimentem dados sem afetar os sistemas de produção. A ingestão de dados mais rápida e a análise flexível em data lakes aceleram os insights, o que melhora a agilidade e a capacidade de resposta às mudanças do mercado.
Casos de uso de data lake
Casos de uso comuns para data lakes incluem:
1. Analytics avançada e machine learning (aprendizado de máquina): sua capacidade de armazenar grandes quantidades de dados em seu formato nativo torna os data lakes essenciais para executar analytics avançada e machine learning. Os data lakes podem coletar e integrar diversas fontes de dados, como interações com clientes, dados de vendas e atividades em redes sociais. Isso permite que os cientistas de dados desenvolvam modelos preditivos e aplicações sofisticadas de IA, gerando melhores insights de negócios e tomadas de decisão.
2. Processamento de dados em tempo real: como os data lakes dão suporte a ingestão e processamento de dados em tempo real, eles são ideais para aplicações que exigem insights imediatos, como negociação financeira, detecção de fraudes e monitoramento operacional. Um data lake pode monitorar dados de transações em tempo real, identificando e prevenindo atividades fraudulentas instantaneamente. Nas instalações de manufatura, os dados em tempo real das máquinas podem detectar anomalias e realizar manutenção preditiva, reduzindo o downtime e melhorando a eficiência.
3. Consolidação e integração de dados: os data lakes podem integrar dados de diversas fontes em um repositório unificado, eliminando silos de dados. Isso é bastante útil para criar uma visão abrangente dos clientes. Uma empresa de varejo pode combinar dados de históricos de compras, interações em sites e redes sociais para entender melhor o comportamento do cliente e entregar campanhas de marketing personalizadas.
4. Conformidade regulatória e governança de dados: como os data lakes fornecem uma solução segura e escalável para armazenar grandes quantidades de dados, eles podem garantir a conformidade com regulamentações como GDPR, HIPAA e CCPA. Essa conformidade em tempo real é fundamental para setores como o da saúde e o financeiro, que devem aderir a requisitos regulamentares rigorosos para armazenamento e segurança de dados.
5. Gerenciamento de dados de dispositivos de edge: dispositivos de edge geram enormes quantidades de dados, e os data lakes são capazes de armazenar e processar grandes volumes e variedades de dados. Na edge, esses dados podem incluir leituras de sensores, dados de medidores inteligentes e registros de dispositivos conectados. Os data lakes, com essa habilidade, dão suporte a casos de uso como administração de cidades inteligentes, automação industrial e manutenção preventiva.
Os data lakes fornecem agilidade e adaptabilidade para atender a muitos casos de uso modernos de armazenamento e processamento de dados.
Comparação entre data lake e data warehouse
Muitas vezes, as pessoas confundem data lakes com data warehouses. Na verdade, eles não são a mesma coisa e têm finalidades diferentes. A única similaridade é que ambos são repositórios de big data. Muitas empresas usam as duas soluções para atender a necessidades específicas e alcançar determinadas metas.
O data warehouse oferece um modelo de dados estruturados projetado para a geração de relatórios. Essa é a principal diferença entre ele e o data lake. Já o data lake armazena dados brutos não estruturados que não têm uma finalidade definida.
Antes de colocar os dados em um data warehouse, é necessário processá-los. Você precisa decidir quais dados serão incluídos no data warehouse. Isso é chamado de "schema on write" (esquema para gravação).
Refinar os dados antes de armazená-los em um data warehouse pode ser complicado e demorado: isso pode levar meses ou até mesmo anos no processo, impedindo a coleta imediata. Com um data lake, você coleta os dados instantaneamente e depois descobre uma finalidade para eles.
Por conta de sua estrutura, os data warehouses costumam ser mais utilizados por usuários de negócios que sabem com antecedência quais dados são necessários para a geração de relatórios periódicos. Já os data lakes são mais usados por analistas e cientistas porque eles realizam pesquisas por meio dos dados, que precisam receber análises e filtros mais avançados para se tornarem úteis.
Geralmente, os data lakes e data warehouses também têm hardwares de armazenamento diferentes. Os data warehouses são caros. Já os data lakes custam menos porque têm hardware comum (apesar do grande tamanho).
Data lakes na nuvem
As soluções em nuvem oferecem escalabilidade e economia, pois as organizações podem pagar à medida que crescem. Data lakes que usam armazenamento em nuvem são escaláveis infinitamente já que não dependem do hardware disponível de uma organização para crescer. Junto com essa escalabilidade, as soluções em nuvem oferecem desempenho melhor, pois são capazes de aumentar ou diminuir com base na demanda. Como as soluções em nuvem para data lakes oferecem infraestrutura flexível, elas podem ser mais econômicas do que o hardware on-premises.
Os data lakes em nuvem oferecem mais acesso aos dados do que outras soluções, pois podem ser acessados de qualquer lugar do mundo, capacitando equipes distribuídas. Além disso, como os serviços em nuvem são desenvolvidos para integração com outros serviços, os data lakes em nuvem podem facilitar uma integração melhor com menos esforço.
Todos os maiores nomes da cloud computing oferecem serviços de data lake. O Amazon S3 é a base para data lakes na AWS. O Microsoft Azure oferece o Azure Data Lake Storage. O Google Cloud Storage fornece armazenamento de objetos escalável e seguro que serve de base para data lakes no Google Cloud Platform. O IBM Cloud Object Storage é ideal para construir data lakes, pois foi projetado para alta durabilidade, segurança e disponibilidade de dados, bem como integração com analytics e serviços de IA da IBM para fornecer soluções de dados abrangentes.
Arquitetura do data lake
A arquitetura do data lake é simples porque os dados podem ser estruturados, semiestruturados ou não estruturados. Além disso, eles são coletados de várias fontes dentro da organização, enquanto o data warehouse os armazena em arquivos ou pastas. É possível hospedar o data lake on-premises ou na nuvem.
A arquitetura dos data lakes permite uma escalabilidade massiva que pode chegar aos exabytes. Isso é importante porque, ao criar um data lake, é comum que você não saiba com antecedência que volume de dados será armazenado. Esse tipo de escala não é oferecido por sistemas de armazenamento tradicionais.
Essa arquitetura é perfeita para cientistas capazes de extrair e explorar dados na empresa, além de fazer o compartilhamento e a referência cruzada deles (incluindo dados heterogêneos de diferentes campos) para fazer perguntas e descobrir novos insights. Os cientistas também podem utilizar a análise de big data e o machine learning para analisar dados em um data lake.
Embora os dados não tenham um esquema fixo antes do armazenamento em um data lake, a governança deles ainda é importante para evitar o data swamp. É preciso marcá-los com metadados antes de colocá-los nesse tipo de repositório para assegurar que sejam acessíveis depois.
Aprimore o gerenciamento de aplicações de inteligência artificial e machine learning (IA/ML)
Confira o ponto de vista de especialistas sobre como simplificar a implantação e o gerenciamento do ciclo de vida de aplicações de IA/ML. Aprenda a criar modelos de ML e apps de IA, colaborar nesse processo e compartilhar seu trabalho, tudo com muita rapidez.
Por que escolher o Red Hat Data Services?
Com as soluções open source de armazenamento definido por software da Red Hat, você trabalha mais, cresce mais rapidamente e tem a certeza de que todos os dados, incluindo documentos financeiros importantes e arquivos de rich media, estarão armazenados com segurança.
Com o armazenamento escalável, econômico e definido por software, é possível analisar enormes conjuntos de dados em data lakes para ter insights de negócios mais assertivos. As soluções de armazenamento definido por software da Red Hat são todas construídas em open source e aproveitam as inovações de uma comunidade de desenvolvedores, parceiros e clientes. Assim, você tem controle total sobre a formatação e utilização do seu armazenamento, de acordo com as cargas de trabalho, ambientes e necessidades exclusivas da sua empresa.