Top 25 perguntas da entrevista de teste ETL & Respostas

Anonim

A seguir estão as perguntas mais frequentes em entrevistas para caloiros, bem como testadores e desenvolvedores ETL bem experientes.

1) O que é ETL?

Na arquitetura de armazenamento de dados, ETL é um componente importante, que gerencia os dados para qualquer processo de negócios. ETL significa Extrair, Transformar e Carregar . Extract faz o processo de leitura de dados de um banco de dados. Transform faz a conversão de dados em um formato que pode ser apropriado para relatórios e análises. Enquanto, load faz o processo de gravar os dados no banco de dados de destino.

2) Explique o que as operações de teste ETL incluem?

O teste de ETL inclui

  • Verifique se os dados estão se transformando corretamente de acordo com os requisitos de negócios
  • Verifique se os dados projetados são carregados no armazém de dados sem qualquer truncamento e perda de dados
  • Certifique-se de que o aplicativo ETL relata dados inválidos e os substitui por valores padrão
  • Certifique-se de que os dados sejam carregados no prazo esperado para melhorar a escalabilidade e o desempenho

3) Mencione quais são os tipos de aplicativos de data warehouse e qual é a diferença entre data mining e data warehouse?

Os tipos de aplicativos de data warehouse são

  • Processamento de Informação
  • Processamento Analítico
  • Mineração de dados

A mineração de dados pode ser definida como o processo de extrair informações preditivas ocultas de grandes bancos de dados e interpretar os dados, enquanto o data warehouse pode fazer uso de uma mina de dados para processamento analítico dos dados de maneira mais rápida. Armazenamento de dados é o processo de agregar dados de várias fontes em um repositório comum

4) Quais são as várias ferramentas usadas em ETL?

  • Cognos Decision Stream
  • Oracle Warehouse Builder
  • Objetos de Negócios XI
  • Armazém de negócios SAS
  • Servidor SAS Enterprise ETL

5) O que é fato? Quais são os tipos de fatos?

É um componente central de um modelo multidimensional que contém as medidas a serem analisadas. Os fatos estão relacionados às dimensões.

Tipos de fatos são

  • Fatos Aditivos
  • Fatos semi-aditivos
  • Fatos não aditivos

6) Explique o que são cubos e cubos OLAP?

Cubos são unidades de processamento de dados compostas de tabelas de fatos e dimensões do data warehouse. Ele fornece análise multidimensional.

OLAP significa Online Analytics Processing, e o cubo OLAP armazena grandes dados em formato multidimensional para fins de relatório. Consiste em fatos chamados de medidas categorizadas por dimensões.

7) Explique o que é o nível de rastreamento e quais são os tipos?

O nível de rastreamento é a quantidade de dados armazenados nos arquivos de log. O nível de rastreamento pode ser classificado em Normal e Detalhado. O nível normal explica o nível de rastreamento de maneira detalhada, enquanto verboso explica os níveis de rastreamento em cada linha.

8) Explique o que é grão de fato?

O fato granular pode ser definido como o nível no qual as informações do fato são armazenadas. Também é conhecido como Granularidade do Fato

9) Explique o que é esquema de fato sem fatos e o que são medidas?

Uma tabela de fatos sem medidas é conhecida como tabela de fatos sem fatos. Ele pode visualizar o número de eventos ocorridos. Por exemplo, é usado para registrar um evento, como contagem de funcionários em uma empresa.

Os dados numéricos baseados em colunas em uma tabela de fatos são conhecidos como Medidas

10) Explique o que é transformação?

Uma transformação é um objeto de repositório que gera, modifica ou transmite dados. A transformação é de dois tipos ativa e passiva

11) Explicar o uso da transformação Lookup?

A transformação de pesquisa é útil para

  • Obter um valor relacionado de uma tabela usando um valor de coluna
  • Atualizar a tabela de dimensões que muda lentamente
  • Verifique se já existem registros na tabela

12) Explique o que é particionamento, particionamento hash e particionamento round robin?

Para melhorar o desempenho, as transações são subdivididas, isso é chamado de Particionamento. O particionamento permite que o Informatica Server crie várias conexões com várias fontes

Os tipos de partições são

Particionamento Round-Robin:

  • Os dados da informatica são distribuídos uniformemente entre todas as partições
  • Em cada partição onde o número de linhas a processar é aproximadamente o mesmo, este particionamento é aplicável

Particionamento Hash:

  • Com o objetivo de particionar chaves para agrupar dados entre as partições, o servidor Informatica aplica uma função hash
  • É usado para garantir que os grupos de processos de linhas com a mesma chave de particionamento na mesma partição precisam ser garantidos

13) Mencione qual é a vantagem de usar o DataReader Destination Adapter?

A vantagem de usar o DataReader Destination Adapter é que ele preenche um conjunto de registros ADO (consiste em registros e colunas) na memória e expõe os dados da tarefa DataFlow implementando a interface DataReader, para que outro aplicativo possa consumir os dados.

14) Usando SSIS (Serviço de Integração do SQL Server) quais são as maneiras possíveis de atualizar a tabela?

Para atualizar a tabela usando SSIS, as formas possíveis são:

  • Use um comando SQL
  • Use uma mesa de preparação
  • Use Cache
  • Use a tarefa de script
  • Use o nome completo do banco de dados para atualização se MSSQL for usado

15) Caso você tenha uma fonte não OLEDB (Object Linking and Embedding Database) para a pesquisa, o que você faria?

Caso você tenha uma fonte não OLEBD para a pesquisa, você deve usar o Cache para carregar os dados e usá-los como fonte

16) Em que caso você usa cache dinâmico e cache estático em transformações conectadas e desconectadas?

  • O cache dinâmico é usado quando você tem que atualizar a tabela mestre e alterar lentamente as dimensões (SCD) tipo 1
  • Para arquivos simples, o cache estático é usado

17) Explique quais são as diferenças entre pesquisa desconectada e conectada?

Consulta conectada

Consulta Desconectada

  • A pesquisa conectada participa do mapeamento

- É usado quando a função de pesquisa é usada em vez de uma transformação de expressão durante o mapeamento

  • Vários valores podem ser retornados

- Retorna apenas uma porta de saída

  • Ele pode ser conectado a outras transformações e retorna um valor
  • Outra transformação não pode ser conectada
  • Cache estático ou dinâmico pode ser usado para pesquisa conectada
  • Desconectado apenas como cache estático
  • A pesquisa conectada oferece suporte a valores padrão definidos pelo usuário
  • A pesquisa desconectada não suporta valores padrão definidos pelo usuário
  • Na pesquisa conectada, várias colunas podem ser retornadas da mesma linha ou inseridas no cache de pesquisa dinâmica
  • A pesquisa desconectada designa uma porta de retorno e retorna uma coluna de cada linha

18) Explique o que é exibição da fonte de dados?

Uma visão da fonte de dados permite definir o esquema relacional que será usado nos bancos de dados de serviços de análise. Em vez de diretamente de objetos de fonte de dados, dimensões e cubos são criados a partir de visualizações de fonte de dados.

19) Explique qual é a diferença entre as ferramentas OLAP e as ferramentas ETL?

A diferença entre a ferramenta ETL e OLAP é que

A ferramenta ETL se destina à extração de dados dos sistemas legados e carrega em um banco de dados especificado com algum processo de limpeza de dados.

Exemplo: Estágio de dados, Informatica etc.

Enquanto OLAP se destina a fins de relatório em dados OLAP disponíveis no modelo multidirecional.

Exemplo: Business Objects, Cognos etc.

20) Como você pode extrair dados SAP usando a Informatica?

  • Com a opção de conexão de energia, você extrai dados SAP usando informatica
  • Instale e configure a ferramenta PowerConnect
  • Importe a fonte para o Source Analyzer. Entre Informatica e SAP Powerconnect atue como um portal. O próximo passo é gerar o código ABAP para o mapeamento, então somente a informatica pode puxar os dados do SAP
  • Para conectar e importar fontes de sistemas externos Power Connect é usado

21) Mencione qual é a diferença entre Power Mart e Power Center?

Power Center

Power Mart

  • Suponha que processe um grande volume de dados
  • Suponha que processe baixo volume de dados
  • Suporta fontes de ERP como SAP, pessoas soft etc.
  • Não suporta fontes de ERP
  • Suporta repositório local e global
  • Suporta repositório local
  • Ele converte repositório local em global
  • Não tem especificação para converter repositório local em global

22) Explique o que é área de teste e qual é a finalidade de uma área de teste?

A preparação de dados é uma área onde você mantém os dados temporários no servidor do data warehouse. O teste de dados inclui as seguintes etapas

  • Extração de dados de origem e transformação de dados (reestruturação)
  • Transformação de dados (limpeza de dados, transformação de valor)
  • Atribuições de chave substituta

23) O que é Bus Schema?

Para que os vários processos de negócios identifiquem as dimensões comuns, o esquema BUS é usado. Ele vem com dimensões conformadas, juntamente com uma definição padronizada de informações

24) Explique o que é limpeza de dados?

A eliminação de dados é um processo de exclusão de dados do data warehouse. Ele exclui as linhas de dados inúteis com valores nulos ou espaços extras.

25) Explique o que são objetos de esquema?

Objetos de esquema são a estrutura lógica que se refere diretamente aos dados do banco de dados. Objetos de esquema incluem tabelas, visualizações, sinônimos de sequência, índices, clusters, pacotes de funções e links de banco de dados

26) Explique esses termos Sessão, Worklet, Mapplet e Fluxo de Trabalho?

  • Mapplet: organiza ou cria conjuntos de transformação
  • Worklet: representa um conjunto específico de tarefas fornecidas
  • Fluxo de trabalho: é um conjunto de instruções que informa ao servidor como executar tarefas
  • Sessão: É um conjunto de parâmetros que informa ao servidor como mover os dados das fontes para o destino

Download grátis de PDF: Perguntas e respostas sobre a entrevista de teste de ETL