O que é Data Lake?
Um Data Lake é um repositório de armazenamento que pode armazenar uma grande quantidade de dados estruturados, semiestruturados e não estruturados. É um lugar para armazenar todos os tipos de dados em seu formato nativo, sem limites fixos no tamanho da conta ou arquivo. Ele oferece grande quantidade de dados para aumentar o desempenho analítico e a integração nativa.
O Data Lake é como um grande contêiner, muito semelhante a rios e lagos reais. Assim como em um lago, você tem vários afluentes chegando, um lago de dados tem dados estruturados, dados não estruturados, máquina para máquina, logs que fluem em tempo real.
O Data Lake democratiza os dados e é uma forma econômica de armazenar todos os dados de uma organização para processamento posterior. O analista de pesquisa pode se concentrar em encontrar padrões de significado nos dados e não nos dados em si.
Ao contrário de uma casa de Dataware hierárquica, onde os dados são armazenados em arquivos e pastas, o Data lake tem uma arquitetura plana. Todos os elementos de dados em um Data Lake recebem um identificador exclusivo e marcados com um conjunto de informações de metadados.
Neste tutorial, você aprenderá-
- O que é Data Lake?
- Por que Data Lake?
- Arquitetura Data Lake
- Principais conceitos do Data Lake
- Estágios de maturidade do Data Lake
- Práticas recomendadas para implementação de Data Lake:
- Diferença entre Data lakes e Data warehouse
- Benefícios e riscos do uso do Data Lake:
Por que Data Lake?
O principal objetivo da construção de um data lake é oferecer aos cientistas de dados uma visão não refinada dos dados.
Os motivos para usar o Data Lake são:
- Com o início de mecanismos de armazenamento como o Hadoop, o armazenamento de informações díspares se tornou fácil. Não há necessidade de modelar dados em um esquema de toda a empresa com um Data Lake.
- Com o aumento do volume de dados, da qualidade dos dados e dos metadados, a qualidade das análises também aumenta.
- Data Lake oferece agilidade de negócios
- O aprendizado de máquina e a inteligência artificial podem ser usados para fazer previsões lucrativas.
- Ele oferece uma vantagem competitiva para a organização implementadora.
- Não há estrutura de silo de dados. O Data Lake oferece uma visão de 360 graus dos clientes e torna a análise mais robusta.
Arquitetura Data Lake
A figura mostra a arquitetura de um Business Data Lake. Os níveis inferiores representam dados que estão em sua maioria em repouso, enquanto os níveis superiores mostram dados transacionais em tempo real. Esses dados fluem pelo sistema com nenhuma ou pouca latência. A seguir estão as camadas importantes na arquitetura do Data Lake:
- Camada de ingestão : as camadas do lado esquerdo representam as fontes de dados. Os dados podem ser carregados no data lake em lotes ou em tempo real
- Nível de insights: as camadas à direita representam o lado da pesquisa onde os insights do sistema são usados. Consultas SQL, NoSQL ou mesmo Excel podem ser usados para análise de dados.
- HDFS é uma solução econômica para dados estruturados e não estruturados. É uma zona de pouso para todos os dados que estão em repouso no sistema.
- O nível de destilação pega os dados do pneu de armazenamento e os converte em dados estruturados para uma análise mais fácil.
- A camada de processamento executa algoritmos analíticos e consultas de usuários com lote variado em tempo real e interativo para gerar dados estruturados para uma análise mais fácil.
- A camada de operações unificadas governa o gerenciamento e monitoramento do sistema. Inclui auditoria e gerenciamento de proficiência, gerenciamento de dados, gerenciamento de fluxo de trabalho.
Principais conceitos do Data Lake
A seguir estão os principais conceitos do Data Lake que é preciso entender para compreender completamente a Arquitetura do Data Lake
Ingestão de Dados
A ingestão de dados permite que os conectores obtenham dados de fontes de dados diferentes e carreguem no lago de dados.
Suporta ingestão de dados:
- Todos os tipos de dados estruturados, semiestruturados e não estruturados.
- Múltiplas ingestões como lote, tempo real, carregamento único.
- Muitos tipos de fontes de dados, como bancos de dados, servidores da Web, e-mails, IoT e FTP.
Armazenamento de dados
O armazenamento de dados deve ser escalonável, oferece armazenamento econômico e permite acesso rápido à exploração de dados. Deve suportar vários formatos de dados.
Gestão de dados
A governança de dados é um processo de gerenciamento da disponibilidade, usabilidade, segurança e integridade dos dados usados em uma organização.
Segurança
A segurança precisa ser implementada em todas as camadas do Data lake. Começa com Armazenamento, Desenterramento e Consumo. A necessidade básica é impedir o acesso de usuários não autorizados. Ele deve oferecer suporte a diferentes ferramentas para acessar dados com interface de usuário e painéis fáceis de navegar.
Autenticação, contabilidade, autorização e proteção de dados são alguns recursos importantes da segurança do data lake.
Qualidade de dados:
A qualidade dos dados é um componente essencial da arquitetura do Data Lake. Os dados são usados para determinar o valor comercial. Extrair insights de dados de baixa qualidade levará a insights de baixa qualidade.
Descoberta de dados
A descoberta de dados é outro estágio importante antes de você começar a preparar dados ou análises. Nesta etapa, a técnica de tagging é utilizada para expressar o entendimento dos dados, organizando e interpretando os dados ingeridos no Data lake.
Auditoria de Dados
Duas tarefas principais de auditoria de dados estão rastreando alterações no conjunto de dados chave.
- Acompanhamento de alterações em elementos importantes do conjunto de dados
- Captura como / quando / e quem muda para esses elementos.
A auditoria de dados ajuda a avaliar o risco e a conformidade.
Linhagem de Dados
Este componente trata das origens dos dados. Ele trata principalmente de onde ele se move ao longo do tempo e o que acontece com ele. Facilita a correção de erros em um processo de análise de dados da origem ao destino.
Exploração de Dados
É o estágio inicial da análise de dados. Isso ajuda a identificar o conjunto de dados correto, é vital antes de iniciar a exploração de dados.
Todos os componentes dados precisam trabalhar juntos para desempenhar um papel importante na construção do Data lake, facilmente evoluir e explorar o ambiente.
Estágios de maturidade do Data Lake
A definição dos estágios de maturidade do Data Lake difere de um livro para outro. Embora o ponto crucial continue o mesmo. Após a maturidade, a definição do palco é feita de um ponto de vista leigo.
Estágio 1: manipular e ingerir dados em escala
Este primeiro estágio de maturidade de dados envolve o aprimoramento da capacidade de transformar e analisar dados. Aqui, os proprietários de negócios precisam encontrar as ferramentas de acordo com suas habilidades para obter mais dados e criar aplicativos analíticos.
Estágio 2: Construindo o músculo analítico
Esta é uma segunda etapa que envolve o aprimoramento da capacidade de transformar e analisar dados. Nesta fase, as empresas utilizam a ferramenta mais adequada ao seu conjunto de competências. Eles começam a adquirir mais dados e a construir aplicativos. Aqui, os recursos do data warehouse empresarial e do data lake são usados juntos.
Estágio 3: EDW e Data Lake trabalham em uníssono
Esta etapa envolve colocar dados e análises nas mãos do maior número possível de pessoas. Nesse estágio, o data lake e o data warehouse empresarial começam a funcionar em união. Ambos desempenhando seu papel na análise
Estágio 4: Capacidade da empresa no lago
Nesse estágio de maturidade do data lake, os recursos corporativos são adicionados ao Data Lake. Adoção de governança de informações, recursos de gerenciamento de ciclo de vida de informações e gerenciamento de metadados. No entanto, muito poucas organizações podem atingir esse nível de maturidade, mas essa contagem aumentará no futuro.
Práticas recomendadas para implementação de Data Lake:
- Os componentes arquitetônicos, sua interação e produtos identificados devem oferecer suporte a tipos de dados nativos
- O design do Data Lake deve ser orientado pelo que está disponível, e não pelo que é necessário. O esquema e o requisito de dados não são definidos até que sejam consultados
- O design deve ser guiado por componentes descartáveis integrados com API de serviço.
- A descoberta, ingestão, armazenamento, administração, qualidade, transformação e visualização de dados devem ser gerenciados de forma independente.
- A arquitetura do Data Lake deve ser adaptada a um setor específico. Deve garantir que os recursos necessários para esse domínio sejam uma parte inerente do design
- A integração mais rápida de fontes de dados recém-descobertas é importante
- Data Lake ajuda o gerenciamento personalizado para extrair o valor máximo
- O Data Lake deve suportar técnicas e métodos de gerenciamento de dados corporativos existentes
Desafios de construir um data lake:
- No Data Lake, o volume de dados é maior, então o processo deve ser mais dependente da administração programática
- É difícil lidar com dados esparsos, incompletos e voláteis
- Um escopo mais amplo de conjunto de dados e fonte precisa de maior governança e suporte de dados
Diferença entre Data lakes e Data warehouse
Parâmetros | Data Lakes | Armazém de dados |
---|---|---|
Dados | Os lagos de dados armazenam tudo. | Data Warehouse se concentra apenas em processos de negócios. |
Em processamento | Os dados são principalmente não processados | Dados altamente processados. |
Tipo de Dados | Pode ser desestruturado, semiestruturado e estruturado. | É principalmente em forma e estrutura tabular. |
Tarefa | Compartilhamento de administração de dados | Otimizado para recuperação de dados |
Agilidade | Altamente ágil, configure e reconfigure conforme necessário. | Comparado ao Data lake, ele é menos ágil e possui configuração fixa. |
Comercial | Data Lake é usado principalmente por cientistas de dados | Profissionais de negócios usam amplamente o data warehouse |
Armazenar | Projeto de lagos de dados para armazenamento de baixo custo. | Armazenamento caro que oferece tempos de resposta rápidos é usado |
Segurança | Oferece menos controle. | Permite melhor controle dos dados. |
Substituição de EDW | O lago de dados pode ser fonte para EDW | Complementar ao EDW (não substituição) |
Esquema | Esquema na leitura (sem esquemas predefinidos) | Esquema na gravação (esquemas predefinidos) |
Processamento de dados | Ajuda na ingestão rápida de novos dados. | Demorado para introduzir novos conteúdos. |
Granularidade de dados | Dados com baixo nível de detalhe ou granularidade. | Dados no nível resumido ou agregado de detalhes. |
Ferramentas | Pode usar código aberto / ferramentas como Hadoop / Map Reduce | Principalmente ferramentas comerciais. |
Benefícios e riscos do uso do Data Lake:
Aqui estão alguns dos principais benefícios do uso de um Data Lake:
- Ajuda totalmente com ionização de produtos e análises avançadas
- Oferece escalabilidade econômica e flexibilidade
- Oferece valor de tipos de dados ilimitados
- Reduz o custo de propriedade a longo prazo
- Permite o armazenamento econômico de arquivos
- Rapidamente adaptável a mudanças
- A principal vantagem do data lake é a centralização de diferentes fontes de conteúdo
- Os usuários, de vários departamentos, podem estar espalhados pelo mundo e podem ter acesso flexível aos dados
Risco de usar o Data Lake:
- Depois de algum tempo, o Data Lake pode perder relevância e impulso
- Há um risco maior envolvido ao projetar o Data Lake
- Dados não estruturados podem levar a Chao não governado, dados inutilizáveis, ferramentas discrepantes e complexas, colaboração em toda a empresa, unificado, consistente e comum
- Também aumenta os custos de armazenamento e computação
- Não há como obter insights de outras pessoas que trabalharam com os dados porque não há um relato da linhagem das descobertas de analistas anteriores
- O maior risco de lagos de dados é a segurança e o controle de acesso. Às vezes, os dados podem ser colocados em um lago sem qualquer supervisão, já que alguns dos dados podem ter privacidade e necessidade regulatória
Resumo:
- Um Data Lake é um repositório de armazenamento que pode armazenar uma grande quantidade de dados estruturados, semiestruturados e não estruturados.
- O principal objetivo da construção de um data lake é oferecer aos cientistas de dados uma visão não refinada dos dados.
- Camada de operações unificadas, camada de processamento, camada de destilação e HDFS são camadas importantes da arquitetura Data Lake
- Ingestão de dados, armazenamento de dados, qualidade de dados, auditoria de dados, exploração de dados, descoberta de dados são alguns componentes importantes da arquitetura Data Lake
- O design do Data Lake deve ser orientado pelo que está disponível, e não pelo que é necessário.
- O Data Lake reduz o custo de propriedade a longo prazo e permite o armazenamento econômico de arquivos
- O maior risco de lagos de dados é a segurança e o controle de acesso. Às vezes, os dados podem ser colocados em um lago sem qualquer supervisão, pois alguns dos dados podem ter privacidade e necessidade regulatória.