Top 25 perguntas da entrevista de teste ETL & Respostas

A seguir estão as perguntas mais frequentes em entrevistas para caloiros, bem como testadores e desenvolvedores ETL bem experientes.

1) O que é ETL?

Na arquitetura de armazenamento de dados, ETL é um componente importante, que gerencia os dados para qualquer processo de negócios. ETL significa Extrair, Transformar e Carregar . Extract faz o processo de leitura de dados de um banco de dados. Transform faz a conversão de dados em um formato que pode ser apropriado para relatórios e análises. Enquanto, load faz o processo de gravar os dados no banco de dados de destino.

2) Explique o que as operações de teste ETL incluem?

O teste de ETL inclui

Verifique se os dados estão se transformando corretamente de acordo com os requisitos de negócios
Verifique se os dados projetados são carregados no armazém de dados sem qualquer truncamento e perda de dados
Certifique-se de que o aplicativo ETL relata dados inválidos e os substitui por valores padrão
Certifique-se de que os dados sejam carregados no prazo esperado para melhorar a escalabilidade e o desempenho

3) Mencione quais são os tipos de aplicativos de data warehouse e qual é a diferença entre data mining e data warehouse?

Os tipos de aplicativos de data warehouse são

Processamento de Informação
Processamento Analítico
Mineração de dados

A mineração de dados pode ser definida como o processo de extrair informações preditivas ocultas de grandes bancos de dados e interpretar os dados, enquanto o data warehouse pode fazer uso de uma mina de dados para processamento analítico dos dados de maneira mais rápida. Armazenamento de dados é o processo de agregar dados de várias fontes em um repositório comum

4) Quais são as várias ferramentas usadas em ETL?

Cognos Decision Stream
Oracle Warehouse Builder
Objetos de Negócios XI
Armazém de negócios SAS
Servidor SAS Enterprise ETL

5) O que é fato? Quais são os tipos de fatos?

É um componente central de um modelo multidimensional que contém as medidas a serem analisadas. Os fatos estão relacionados às dimensões.

Tipos de fatos são

Fatos Aditivos
Fatos semi-aditivos
Fatos não aditivos

6) Explique o que são cubos e cubos OLAP?

Cubos são unidades de processamento de dados compostas de tabelas de fatos e dimensões do data warehouse. Ele fornece análise multidimensional.

OLAP significa Online Analytics Processing, e o cubo OLAP armazena grandes dados em formato multidimensional para fins de relatório. Consiste em fatos chamados de medidas categorizadas por dimensões.

7) Explique o que é o nível de rastreamento e quais são os tipos?

O nível de rastreamento é a quantidade de dados armazenados nos arquivos de log. O nível de rastreamento pode ser classificado em Normal e Detalhado. O nível normal explica o nível de rastreamento de maneira detalhada, enquanto verboso explica os níveis de rastreamento em cada linha.

8) Explique o que é grão de fato?

O fato granular pode ser definido como o nível no qual as informações do fato são armazenadas. Também é conhecido como Granularidade do Fato

9) Explique o que é esquema de fato sem fatos e o que são medidas?

Uma tabela de fatos sem medidas é conhecida como tabela de fatos sem fatos. Ele pode visualizar o número de eventos ocorridos. Por exemplo, é usado para registrar um evento, como contagem de funcionários em uma empresa.

Os dados numéricos baseados em colunas em uma tabela de fatos são conhecidos como Medidas

10) Explique o que é transformação?

Uma transformação é um objeto de repositório que gera, modifica ou transmite dados. A transformação é de dois tipos ativa e passiva

11) Explicar o uso da transformação Lookup?

A transformação de pesquisa é útil para

Obter um valor relacionado de uma tabela usando um valor de coluna
Atualizar a tabela de dimensões que muda lentamente
Verifique se já existem registros na tabela

12) Explique o que é particionamento, particionamento hash e particionamento round robin?

Para melhorar o desempenho, as transações são subdivididas, isso é chamado de Particionamento. O particionamento permite que o Informatica Server crie várias conexões com várias fontes

Os tipos de partições são

Particionamento Round-Robin:

Os dados da informatica são distribuídos uniformemente entre todas as partições
Em cada partição onde o número de linhas a processar é aproximadamente o mesmo, este particionamento é aplicável

Particionamento Hash:

Com o objetivo de particionar chaves para agrupar dados entre as partições, o servidor Informatica aplica uma função hash
É usado para garantir que os grupos de processos de linhas com a mesma chave de particionamento na mesma partição precisam ser garantidos

13) Mencione qual é a vantagem de usar o DataReader Destination Adapter?

A vantagem de usar o DataReader Destination Adapter é que ele preenche um conjunto de registros ADO (consiste em registros e colunas) na memória e expõe os dados da tarefa DataFlow implementando a interface DataReader, para que outro aplicativo possa consumir os dados.

14) Usando SSIS (Serviço de Integração do SQL Server) quais são as maneiras possíveis de atualizar a tabela?

Para atualizar a tabela usando SSIS, as formas possíveis são:

Use um comando SQL
Use uma mesa de preparação
Use Cache
Use a tarefa de script
Use o nome completo do banco de dados para atualização se MSSQL for usado

15) Caso você tenha uma fonte não OLEDB (Object Linking and Embedding Database) para a pesquisa, o que você faria?

Caso você tenha uma fonte não OLEBD para a pesquisa, você deve usar o Cache para carregar os dados e usá-los como fonte

16) Em que caso você usa cache dinâmico e cache estático em transformações conectadas e desconectadas?

O cache dinâmico é usado quando você tem que atualizar a tabela mestre e alterar lentamente as dimensões (SCD) tipo 1
Para arquivos simples, o cache estático é usado

17) Explique quais são as diferenças entre pesquisa desconectada e conectada?

Consulta conectada	Consulta Desconectada
A pesquisa conectada participa do mapeamento	- É usado quando a função de pesquisa é usada em vez de uma transformação de expressão durante o mapeamento
Vários valores podem ser retornados	- Retorna apenas uma porta de saída
Ele pode ser conectado a outras transformações e retorna um valor	Outra transformação não pode ser conectada
Cache estático ou dinâmico pode ser usado para pesquisa conectada	Desconectado apenas como cache estático
A pesquisa conectada oferece suporte a valores padrão definidos pelo usuário	A pesquisa desconectada não suporta valores padrão definidos pelo usuário
Na pesquisa conectada, várias colunas podem ser retornadas da mesma linha ou inseridas no cache de pesquisa dinâmica	A pesquisa desconectada designa uma porta de retorno e retorna uma coluna de cada linha

18) Explique o que é exibição da fonte de dados?

Uma visão da fonte de dados permite definir o esquema relacional que será usado nos bancos de dados de serviços de análise. Em vez de diretamente de objetos de fonte de dados, dimensões e cubos são criados a partir de visualizações de fonte de dados.

19) Explique qual é a diferença entre as ferramentas OLAP e as ferramentas ETL?

A diferença entre a ferramenta ETL e OLAP é que

A ferramenta ETL se destina à extração de dados dos sistemas legados e carrega em um banco de dados especificado com algum processo de limpeza de dados.

Exemplo: Estágio de dados, Informatica etc.

Enquanto OLAP se destina a fins de relatório em dados OLAP disponíveis no modelo multidirecional.

Exemplo: Business Objects, Cognos etc.

20) Como você pode extrair dados SAP usando a Informatica?

Com a opção de conexão de energia, você extrai dados SAP usando informatica
Instale e configure a ferramenta PowerConnect
Importe a fonte para o Source Analyzer. Entre Informatica e SAP Powerconnect atue como um portal. O próximo passo é gerar o código ABAP para o mapeamento, então somente a informatica pode puxar os dados do SAP
Para conectar e importar fontes de sistemas externos Power Connect é usado

21) Mencione qual é a diferença entre Power Mart e Power Center?

Power Center	Power Mart
Suponha que processe um grande volume de dados	Suponha que processe baixo volume de dados
Suporta fontes de ERP como SAP, pessoas soft etc.	Não suporta fontes de ERP
Suporta repositório local e global	Suporta repositório local
Ele converte repositório local em global	Não tem especificação para converter repositório local em global

22) Explique o que é área de teste e qual é a finalidade de uma área de teste?

A preparação de dados é uma área onde você mantém os dados temporários no servidor do data warehouse. O teste de dados inclui as seguintes etapas

Extração de dados de origem e transformação de dados (reestruturação)
Transformação de dados (limpeza de dados, transformação de valor)
Atribuições de chave substituta

23) O que é Bus Schema?

Para que os vários processos de negócios identifiquem as dimensões comuns, o esquema BUS é usado. Ele vem com dimensões conformadas, juntamente com uma definição padronizada de informações

24) Explique o que é limpeza de dados?

A eliminação de dados é um processo de exclusão de dados do data warehouse. Ele exclui as linhas de dados inúteis com valores nulos ou espaços extras.

25) Explique o que são objetos de esquema?

Objetos de esquema são a estrutura lógica que se refere diretamente aos dados do banco de dados. Objetos de esquema incluem tabelas, visualizações, sinônimos de sequência, índices, clusters, pacotes de funções e links de banco de dados

26) Explique esses termos Sessão, Worklet, Mapplet e Fluxo de Trabalho?

Mapplet: organiza ou cria conjuntos de transformação
Worklet: representa um conjunto específico de tarefas fornecidas
Fluxo de trabalho: é um conjunto de instruções que informa ao servidor como executar tarefas
Sessão: É um conjunto de parâmetros que informa ao servidor como mover os dados das fontes para o destino

Download grátis de PDF: Perguntas e respostas sobre a entrevista de teste de ETL