Conceitos de Data Warehouse
O conceito básico de um Data Warehouse é facilitar uma única versão da verdade para uma empresa para tomada de decisão e previsão. Um data warehouse é um sistema de informação que contém dados históricos e comutativos de fontes únicas ou múltiplas. Os conceitos de data warehouse simplificam o processo de relatório e análise das organizações.
Características do Data warehouse
Os conceitos de data warehouse têm as seguintes características:
- Orientado para o assunto
- Integrado
- Tempo variável
- Não volátil
Orientado para o assunto
Um data warehouse é orientado por assunto, pois oferece informações sobre um tema em vez das operações em andamento das empresas. Esses assuntos podem ser vendas, marketing, distribuição, etc.
Um data warehouse nunca se concentra nas operações em andamento. Em vez disso, ele enfatizou a modelagem e a análise de dados para a tomada de decisões . Ele também fornece uma visão simples e concisa sobre o assunto específico, excluindo dados que não são úteis para apoiar o processo de decisão.
Integrado
No Data Warehouse, integração significa o estabelecimento de uma unidade de medida comum para todos os dados semelhantes do banco de dados diferente. Os dados também precisam ser armazenados no Datawarehouse de maneira comum e universalmente aceitável.
Um data warehouse é desenvolvido integrando dados de fontes variadas, como mainframe, bancos de dados relacionais, arquivos simples, etc. Além disso, ele deve manter convenções de nomenclatura, formato e codificação consistentes.
Essa integração ajuda na análise eficaz dos dados. A consistência nas convenções de nomenclatura, medidas de atributo, estrutura de codificação, etc. deve ser garantida. Considere o seguinte exemplo:
No exemplo acima, existem três aplicativos diferentes identificados como A, B e C. As informações armazenadas nesses aplicativos são Sexo, Data e Saldo. No entanto, os dados de cada aplicativo são armazenados de forma diferente.
- No aplicativo Um campo de gênero armazena valores lógicos como M ou F
- No aplicativo B, o campo de gênero é um valor numérico,
- No aplicativo Aplicativo C, campo de gênero armazenado na forma de um valor de caractere.
- O mesmo é o caso com data e saldo
No entanto, após o processo de transformação e limpeza, todos esses dados são armazenados em um formato comum no Data Warehouse.
Tempo variável
O horizonte de tempo para o data warehouse é bastante extenso em comparação com os sistemas operacionais. Os dados coletados em um data warehouse são reconhecidos com um determinado período e oferecem informações do ponto de vista histórico. Ele contém um elemento de tempo, explícita ou implicitamente.
Um desses lugares onde a variação do tempo de exibição dos dados do Datawarehouse está na estrutura da chave de registro. Cada chave primária contida no DW deve ter implícita ou explicitamente um elemento de tempo. Como o dia, mês da semana, etc.
Outro aspecto da variação de tempo é que, uma vez que os dados são inseridos no warehouse, eles não podem ser atualizados ou alterados.
Não volátil
O data warehouse também não é volátil, o que significa que os dados anteriores não são apagados quando novos dados são inseridos nele.
Os dados são somente leitura e atualizados periodicamente. Isso também ajuda a analisar dados históricos e entender o que e quando aconteceu. Não requer processos de transação, recuperação e mecanismos de controle de concorrência.
Atividades como excluir, atualizar e inserir, que são executadas em um ambiente de aplicativo operacional, são omitidas no ambiente de data warehouse. Apenas dois tipos de operações de dados realizadas no Data Warehousing são
- Carregamento de dados
- Acesso de dados
Aqui estão algumas das principais diferenças entre aplicativo e data warehouse
Aplicação Operacional | Armazém de dados |
Um programa complexo deve ser codificado para garantir que os processos de atualização de dados mantenham a alta integridade do produto final. | Esse tipo de problema não ocorre porque a atualização de dados não é realizada. |
Os dados são colocados em uma forma normalizada para garantir redundância mínima. | Os dados não são armazenados na forma normalizada. |
A tecnologia necessária para oferecer suporte a problemas de transações, recuperação de dados, reversão e resolução, pois seu impasse é bastante complexo. | Oferece relativa simplicidade em tecnologia. |
Arquitetura de Data Warehouse
A Arquitetura de Data Warehouse é complexa, pois é um sistema de informações que contém dados históricos e comutativos de várias fontes. Existem 3 abordagens para a construção de camadas de Data Warehouse: Camada Única, Duas Camadas e Três Camadas. Esta arquitetura de 3 camadas do Data Warehouse é explicada a seguir.
Arquitetura de camada única
O objetivo de uma única camada é minimizar a quantidade de dados armazenados. Esse objetivo é remover a redundância de dados. Esta arquitetura não é freqüentemente usada na prática.
Arquitetura de duas camadas
A arquitetura de duas camadas é uma das camadas do Data Warehouse que separa as fontes fisicamente disponíveis e o data warehouse. Essa arquitetura não é expansível e também não oferece suporte a um grande número de usuários finais. Ele também tem problemas de conectividade devido às limitações da rede.
Arquitetura de data warehouse de três camadas
Esta é a arquitetura de data warehouse mais amplamente usada.
Consiste nas camadas superior, intermediária e inferior.
- Camada inferior: o banco de dados dos servidores Datawarehouse como a camada inferior. Geralmente é um sistema de banco de dados relacional. Os dados são limpos, transformados e carregados nesta camada usando ferramentas de back-end.
- Camada intermediária : A camada intermediária no Data warehouse é um servidor OLAP que é implementado usando o modelo ROLAP ou MOLAP. Para um usuário, esta camada de aplicativo apresenta uma visão abstrata do banco de dados. Essa camada também atua como mediadora entre o usuário final e o banco de dados.
- Camada superior: a camada superior é uma camada de cliente front-end. A camada superior são as ferramentas e API que você conecta e obtém dados do data warehouse. Podem ser ferramentas de consulta, ferramentas de relatório, ferramentas de consulta gerenciada, ferramentas de análise e ferramentas de mineração de dados.
Componentes do Datawarehouse
Aprenderemos sobre os Componentes e Arquitetura do Datawarehouse do Data Warehouse com Diagrama, conforme mostrado abaixo:
O Data Warehouse é baseado em um servidor RDBMS, que é um repositório central de informações rodeado por alguns componentes-chave do Data Warehousing para tornar todo o ambiente funcional, gerenciável e acessível.
Existem principalmente cinco componentes de data warehouse:
Banco de dados de data warehouse
O banco de dados central é a base do ambiente de armazenamento de dados. Este banco de dados é implementado na tecnologia RDBMS. Embora, esse tipo de implementação seja restringido pelo fato de que o sistema RDBMS tradicional é otimizado para processamento de banco de dados transacional e não para armazenamento de dados. Por exemplo, consulta ad-hoc, junções de várias tabelas e agregações consomem muitos recursos e reduzem o desempenho.
Portanto, abordagens alternativas para o banco de dados são usadas conforme listado abaixo-
- Em um datawarehouse, os bancos de dados relacionais são implantados em paralelo para permitir a escalabilidade. Bancos de dados relacionais paralelos também permitem memória compartilhada ou modelo de nada compartilhado em várias configurações de multiprocessadores ou processadores massivamente paralelos.
- Novas estruturas de índice são usadas para ignorar a varredura da tabela relacional e melhorar a velocidade.
- Uso de banco de dados multidimensional (MDDBs) para superar quaisquer limitações colocadas por causa dos Modelos de Data Warehouse relacionais. Exemplo: Essbase da Oracle.
Ferramentas de aquisição, aquisição, limpeza e transformação (ETL)
As ferramentas de origem, transformação e migração de dados são usadas para realizar todas as conversões, resumos e todas as mudanças necessárias para transformar os dados em um formato unificado no datawarehouse. Eles também são chamados de ferramentas Extract, Transform and Load (ETL).
Sua funcionalidade inclui:
- Torne os dados anônimos de acordo com as estipulações regulamentares.
- Eliminando dados indesejados em bancos de dados operacionais de carregamento no data warehouse.
- Pesquise e substitua nomes e definições comuns para dados que chegam de fontes diferentes.
- Calculando resumos e dados derivados
- No caso de dados ausentes, preencha-os com os padrões.
- Dados duplicados repetidos que chegam de várias fontes de dados.
Essas ferramentas Extrair, Transformar e Carregar podem gerar tarefas cron, tarefas em segundo plano, programas Cobol, scripts de shell, etc. que atualizam regularmente os dados no datawarehouse. Essas ferramentas também são úteis para manter os metadados.
Essas ferramentas ETL têm que lidar com desafios de heterogeneidade de banco de dados e dados.
Metadados
O nome Meta Data sugere alguns conceitos de armazenamento de dados tecnológicos de alto nível. No entanto, é bastante simples. Metadados são dados sobre dados que definem o data warehouse. É usado para construir, manter e gerenciar o data warehouse.
Na Arquitetura do Data Warehouse, os metadados desempenham um papel importante, pois especifica a origem, o uso, os valores e os recursos dos dados do data warehouse. Ele também define como os dados podem ser alterados e processados. Ele está intimamente conectado ao data warehouse.
Por exemplo, uma linha no banco de dados de vendas pode conter:
4030 KJ732 299.90
Este é um dado sem sentido até que consultemos o Meta que nos diz que foi
- Número do modelo: 4030
- ID do agente de vendas: KJ732
- Valor total de vendas de $ 299,90
Portanto, os metadados são ingredientes essenciais na transformação de dados em conhecimento.
Os metadados ajudam a responder às seguintes questões
- Quais tabelas, atributos e chaves o Data Warehouse contém?
- De onde vieram os dados?
- Quantas vezes os dados são recarregados?
- Quais transformações foram aplicadas com a limpeza?
Os metadados podem ser classificados nas seguintes categorias:
- Metadados técnicos : este tipo de metadados contém informações sobre o warehouse que é usado por designers e administradores de data warehouse.
- Metadados de negócios: esse tipo de metadados contém detalhes que fornecem aos usuários finais uma maneira fácil de entender as informações armazenadas no data warehouse.
Ferramentas de Consulta
Um dos principais objetivos do data warehouse é fornecer informações às empresas para a tomada de decisões estratégicas. As ferramentas de consulta permitem que os usuários interajam com o sistema de data warehouse.
Essas ferramentas se enquadram em quatro categorias diferentes:
- Ferramentas de consulta e relatórios
- Ferramentas de desenvolvimento de aplicativos
- Ferramentas de mineração de dados
- Ferramentas OLAP
1. Ferramentas de consulta e relatórios:
Ferramentas de consulta e relatórios podem ser divididas em
- Ferramentas de relatórios
- Ferramentas de consulta gerenciada
Ferramentas de relatórios:
As ferramentas de relatório podem ser divididas em ferramentas de relatório de produção e redator de relatório de desktop.
- Redatores de relatórios: este tipo de ferramenta de relatórios são ferramentas projetadas para usuários finais para suas análises.
- Relatórios de produção: este tipo de ferramenta permite que as organizações gerem relatórios operacionais regulares. Ele também oferece suporte a trabalhos em lote de alto volume, como impressão e cálculo. Algumas ferramentas de relatórios populares são Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Ferramentas de consulta gerenciada:
Esse tipo de ferramenta de acesso ajuda os usuários finais a resolver problemas no banco de dados e na estrutura SQL e do banco de dados, inserindo uma metamada entre os usuários e o banco de dados.
2. Ferramentas de desenvolvimento de aplicativos:
Às vezes, as ferramentas gráficas e analíticas integradas não satisfazem as necessidades analíticas de uma organização. Nesses casos, relatórios personalizados são desenvolvidos usando ferramentas de desenvolvimento de aplicativos.
3. Ferramentas de mineração de dados:
A mineração de dados é um processo de descoberta de novas correlações, padrões e tendências significativos, minerando grandes quantidades de dados. Ferramentas de mineração de dados são usadas para tornar este processo automático.
4. Ferramentas OLAP:
Essas ferramentas são baseadas em conceitos de um banco de dados multidimensional. Ele permite que os usuários analisem os dados usando visualizações multidimensionais elaboradas e complexas.
Arquitetura de barramento de data warehouse
O barramento de data warehouse determina o fluxo de dados em seu warehouse. O fluxo de dados em um data warehouse pode ser categorizado como Inflow, Upflow, Downflow, Outflow e Meta flow.
Ao projetar um barramento de dados, é preciso considerar as dimensões compartilhadas, os fatos entre os data marts.
Data Marts
Um data mart é uma camada de acesso que é usada para enviar dados aos usuários. É apresentado como uma opção para data warehouse de grande porte, pois leva menos tempo e dinheiro para ser construído. No entanto, não existe uma definição padrão de um data mart que difere de pessoa para pessoa.
Em uma palavra simples, Data mart é uma subsidiária de um data warehouse. O data mart é usado para partição de dados que são criados para um grupo específico de usuários.
Os data marts podem ser criados no mesmo banco de dados que o Datawarehouse ou em um banco de dados fisicamente separado.
Práticas recomendadas de arquitetura de data warehouse
Para projetar a Arquitetura de Data Warehouse, você precisa seguir as práticas recomendadas fornecidas a seguir:
- Use Modelos de Data Warehouse que são otimizados para recuperação de informação que pode ser o modo dimensional, desnormalizado ou abordagem híbrida.
- Escolha a abordagem de projeto apropriada como abordagem de cima para baixo e de baixo para cima no Data Warehouse
- Precisa garantir que os dados sejam processados com rapidez e precisão. Ao mesmo tempo, você deve adotar uma abordagem que consolide os dados em uma única versão da verdade.
- Projete cuidadosamente a aquisição de dados e o processo de limpeza para o Data warehouse.
- Projete uma arquitetura de MetaData que permite o compartilhamento de metadados entre os componentes do Data Warehouse
- Considere a implementação de um modelo ODS quando a necessidade de recuperação de informações estiver perto da base da pirâmide de abstração de dados ou quando houver várias fontes operacionais que precisam ser acessadas.
- Deve-se ter certeza de que o modelo de dados está integrado e não apenas consolidado. Nesse caso, você deve considerar o modelo de dados 3NF. Também é ideal para adquirir ferramentas de limpeza de dados e ETL
Resumo:
- O data warehouse é um sistema de informação que contém dados históricos e comutativos de uma ou várias fontes. Essas fontes podem ser Data Warehouse tradicional, Cloud Data Warehouse ou Virtual Data Warehouse.
- Um data warehouse é orientado por assunto, pois oferece informações sobre o assunto em vez das operações em andamento da organização.
- Em Data Warehouse, integração significa o estabelecimento de uma unidade de medida comum para todos os dados semelhantes de bancos de dados diferentes
- O data warehouse também não é volátil, o que significa que os dados anteriores não são apagados quando novos dados são inseridos nele.
- Um Datawarehouse é uma variante do tempo, pois os dados em um DW têm alta vida útil.
- Existem principalmente 5 componentes da Arquitetura de Data Warehouse: 1) Banco de Dados 2) Ferramentas ETL 3) Metadados 4) Ferramentas de Consulta 5) DataMarts
- Estas são quatro categorias principais de ferramentas de consulta 1. Consultas e relatórios, ferramentas 2. Ferramentas de desenvolvimento de aplicativos, 3. Ferramentas de mineração de dados 4. Ferramentas OLAP
- As ferramentas de fonte de dados, transformação e migração são usadas para realizar todas as conversões e resumos.
- Na Arquitetura do Data Warehouse, os metadados desempenham um papel importante, pois especifica a origem, o uso, os valores e os recursos dos dados do data warehouse.