O que é reconciliação de dados?
A reconciliação de dados (DR) é definida como um processo de verificação de dados durante a migração de dados. Neste processo, os dados de destino são comparados com os dados de origem para garantir que a arquitetura de migração está transferindo dados. Validação e reconciliação de dados (DVR) significa uma tecnologia que usa modelos matemáticos para processar informações.
Neste tutorial, você aprenderá,
- O que é reconciliação de dados?
- Por que a reconciliação de dados é importante?
- Terminologia associada à reconciliação de dados
- História da Reconciliação de Dados
- Processo de Reconciliação de Dados
- Práticas recomendadas de uso de reconciliação de dados
- Ferramentas de reconciliação de dados
Por que a reconciliação de dados é importante?
No processo de migração de dados, é possível que ocorram erros na lógica de mapeamento e transformação. Problemas como falhas de tempo de execução, como falhas de rede ou transações interrompidas, podem corromper os dados.
Esse tipo de erro pode fazer com que os dados sejam deixados em um estado inválido. Isso pode criar uma série de problemas como:
- Registros ausentes
- Valores ausentes
- Valores incorretos
- Registros duplicados
- Valores mal formatados
- Relacionamentos quebrados entre tabelas ou sistemas
Aqui estão alguns motivos importantes para usar o processo de reconciliação de dados:
- O uso de Reconciliação de Dados ajuda a extrair informações precisas e confiáveis sobre o estado do processo da indústria a partir de dados de medição brutos.
- Também ajuda a produzir um único conjunto consistente de dados que representa a operação de processo mais provável.
- Também leva a insights imprecisos e problemas com o atendimento ao cliente.
- A reconciliação de dados também é importante para a integração do controle corporativo.
Além do acima exposto, existem muitas vantagens / benefícios da reconciliação de dados.
Terminologia associada à reconciliação de dados
Erro Bruto | Erros grosseiros nas medições. Ele reflete apenas erros de polarização, falhas do instrumento ou picos de ruído anormais se você estiver usando apenas um período curto de média. |
Observabilidade | A análise de observabilidade pode fornecer detalhes sobre quais variáveis podem ser determinadas para um determinado conjunto de restrições e um conjunto de medições. |
Variância | A variância é uma medida da variabilidade de um sensor. |
Redundância | Ajuda a determinar quais medidas devem ser estimadas a partir de outras variáveis usando as equações de restrição. |
História da Reconciliação de Dados
Aqui estão marcos essenciais da história da Reconciliação de Dados.
- DVR (validação de dados e reconciliação) começou no início dos anos 1960. O objetivo era fechar os saldos de materiais na produção, onde as medidas brutas estavam disponíveis para todas as variáveis.
- No final da década de 1960, todas as variáveis não medidas foram consideradas no processo de reconciliação de dados.
- A dinâmica de estado quase estacionário para filtragem e estimativa de parâmetros paralelos ao longo do tempo foi introduzida em 1977 por Stanley e Mah.
- O DVR Dinâmico foi desenvolvido como um modelo de otimização não linear emitido pela Liebman no ano de 1992
Processo de Reconciliação de Dados
Os tipos de métodos de reconciliação de dados são:
Reconciliação de dados mestre
A reconciliação de dados mestres é uma técnica de reconciliar apenas os dados mestres entre a origem e o destino. Os dados principais são praticamente imutáveis ou mudam lentamente por natureza e nenhuma operação de agregação é realizada no conjunto de dados.
Alguns exemplos comuns de reconciliação de dados mestre são:
- Número total de linhas
- Cliente total na origem e no destino
- Número total de itens na origem e no destino
- Contagem total de linhas com base em determinada condição
- Número de usuários ativos
- Número de usuários inativos etc.
Precisão de atividade
- Você precisa se certificar de que as transações são válidas e têm o propósito correto.
- É necessário verificar se as transações foram devidamente autorizadas.
Reconciliação de dados transacionais
Os dados transacionais constituem a base dos relatórios de BI. Portanto, qualquer incompatibilidade nos dados transacionais pode impactar diretamente na confiabilidade do relatório e de todo o sistema de BI em geral.
O método de reconciliação de dados transacionais é usado em termos da soma total, o que evita qualquer incompatibilidade causada pela alteração da granularidade das dimensões de qualificação.
Exemplos de medidas usadas para reconciliação de dados transacionais devem ser:
- Soma da receita total calculada a partir da fonte e da meta
- Soma de todo o item vendido, calculado a partir da origem e do destino, etc.
Reconciliação automatizada de dados:
Em grandes sistemas de gerenciamento de data warehouse, é conveniente automatizar o processo de reconciliação de dados, tornando-o parte integrante do carregamento de dados. Ele permite que você mantenha tabelas de metadados de carregamento separadas. Além disso, a reconciliação automatizada manterá todas as partes interessadas informadas sobre a validade dos relatórios.
Práticas recomendadas de uso de reconciliação de dados
- O processo de reconciliação de dados deve ter como objetivo corrigir os erros de medição.
- Os erros grosseiros devem ser zero para tornar o processo de reconciliação de dados eficiente.
- A abordagem padrão da Reconciliação de dados se baseia em contagens de registros simples para acompanhar se o número de registros pretendido foi migrado ou não.
- A solução de migração de dados oferece recursos de reconciliação semelhantes e funcionalidade de prototipagem de dados que oferece testes de reconciliação de dados de volume completo.
Ferramentas de reconciliação de dados
1) OpenRefine
OpenRefine, que antes era conhecido como Google Refine, é uma estrutura útil de reconciliação de banco de dados. Ele permite que você limpe e transfira dados confusos.
Link para download: https://openrefine.org/
2) Clareza TIBCO
Essa ferramenta de reconciliação de dados oferece serviços de software sob demanda da web na forma de software como serviço. Ele permite que os usuários validem os dados e os limpem. Ele fornece recursos de teste de reconciliação completos. Amplamente utilizado no processo ETL.
Link para download: https://clarity.cloud.tibco.com/landing/index.html
3) Winpure
Winpure é um software de limpeza de dados acessível e preciso. Ele permite que você limpe uma grande quantidade de dados, removendo duplicatas, corrigindo e padronizando para projetar o conjunto de dados final.
Link para download: https://winpure.com/
Resumo
- A validação e reconciliação de dados (DVR) é uma tecnologia que usa modelos matemáticos para processar informações.
- O uso da reconciliação de dados ajuda a extrair informações precisas e confiáveis sobre o estado do processo da indústria a partir de dados de medição brutos.
- Erro bruto, observabilidade, variação, redundância são termos importantes usados no processo de reconciliação de dados
- A validação e reconciliação de dados começaram no início dos anos 1960.
- Três tipos de métodos de reconciliação de dados são 1) Reconciliação de dados mestre 2) Reconciliação de dados transacionais 3) Reconciliação de dados automatizada
- Os erros grosseiros devem ser zero para tornar o processo de reconciliação de dados eficiente.
- Algumas ferramentas importantes de reconciliação de dados são: 1) OpenRefine 2) TIBCO 3) Winpure
- Este método amplamente utilizado no monitoramento de desempenho e processo na indústria de refino de petróleo / nuclear / química