A seguir estão as perguntas mais frequentes em entrevistas para caloiros, bem como testadores e desenvolvedores ETL bem experientes.
1) O que é ETL?
Na arquitetura de armazenamento de dados, ETL é um componente importante, que gerencia os dados para qualquer processo de negócios. ETL significa Extrair, Transformar e Carregar . Extract faz o processo de leitura de dados de um banco de dados. Transform faz a conversão de dados em um formato que pode ser apropriado para relatórios e análises. Enquanto, load faz o processo de gravar os dados no banco de dados de destino.
2) Explique o que as operações de teste ETL incluem?
O teste de ETL inclui
- Verifique se os dados estão se transformando corretamente de acordo com os requisitos de negócios
- Verifique se os dados projetados são carregados no armazém de dados sem qualquer truncamento e perda de dados
- Certifique-se de que o aplicativo ETL relata dados inválidos e os substitui por valores padrão
- Certifique-se de que os dados sejam carregados no prazo esperado para melhorar a escalabilidade e o desempenho
3) Mencione quais são os tipos de aplicativos de data warehouse e qual é a diferença entre data mining e data warehouse?
Os tipos de aplicativos de data warehouse são
- Processamento de Informação
- Processamento Analítico
- Mineração de dados
A mineração de dados pode ser definida como o processo de extrair informações preditivas ocultas de grandes bancos de dados e interpretar os dados, enquanto o data warehouse pode fazer uso de uma mina de dados para processamento analítico dos dados de maneira mais rápida. Armazenamento de dados é o processo de agregar dados de várias fontes em um repositório comum
4) Quais são as várias ferramentas usadas em ETL?
- Cognos Decision Stream
- Oracle Warehouse Builder
- Objetos de Negócios XI
- Armazém de negócios SAS
- Servidor SAS Enterprise ETL
5) O que é fato? Quais são os tipos de fatos?
É um componente central de um modelo multidimensional que contém as medidas a serem analisadas. Os fatos estão relacionados às dimensões.
Tipos de fatos são
- Fatos Aditivos
- Fatos semi-aditivos
- Fatos não aditivos
6) Explique o que são cubos e cubos OLAP?
Cubos são unidades de processamento de dados compostas de tabelas de fatos e dimensões do data warehouse. Ele fornece análise multidimensional.
OLAP significa Online Analytics Processing, e o cubo OLAP armazena grandes dados em formato multidimensional para fins de relatório. Consiste em fatos chamados de medidas categorizadas por dimensões.
7) Explique o que é o nível de rastreamento e quais são os tipos?
O nível de rastreamento é a quantidade de dados armazenados nos arquivos de log. O nível de rastreamento pode ser classificado em Normal e Detalhado. O nível normal explica o nível de rastreamento de maneira detalhada, enquanto verboso explica os níveis de rastreamento em cada linha.
8) Explique o que é grão de fato?
O fato granular pode ser definido como o nível no qual as informações do fato são armazenadas. Também é conhecido como Granularidade do Fato
9) Explique o que é esquema de fato sem fatos e o que são medidas?
Uma tabela de fatos sem medidas é conhecida como tabela de fatos sem fatos. Ele pode visualizar o número de eventos ocorridos. Por exemplo, é usado para registrar um evento, como contagem de funcionários em uma empresa.
Os dados numéricos baseados em colunas em uma tabela de fatos são conhecidos como Medidas
10) Explique o que é transformação?
Uma transformação é um objeto de repositório que gera, modifica ou transmite dados. A transformação é de dois tipos ativa e passiva
11) Explicar o uso da transformação Lookup?
A transformação de pesquisa é útil para
- Obter um valor relacionado de uma tabela usando um valor de coluna
- Atualizar a tabela de dimensões que muda lentamente
- Verifique se já existem registros na tabela
12) Explique o que é particionamento, particionamento hash e particionamento round robin?
Para melhorar o desempenho, as transações são subdivididas, isso é chamado de Particionamento. O particionamento permite que o Informatica Server crie várias conexões com várias fontes
Os tipos de partições são
Particionamento Round-Robin:
- Os dados da informatica são distribuídos uniformemente entre todas as partições
- Em cada partição onde o número de linhas a processar é aproximadamente o mesmo, este particionamento é aplicável
Particionamento Hash:
- Com o objetivo de particionar chaves para agrupar dados entre as partições, o servidor Informatica aplica uma função hash
- É usado para garantir que os grupos de processos de linhas com a mesma chave de particionamento na mesma partição precisam ser garantidos
13) Mencione qual é a vantagem de usar o DataReader Destination Adapter?
A vantagem de usar o DataReader Destination Adapter é que ele preenche um conjunto de registros ADO (consiste em registros e colunas) na memória e expõe os dados da tarefa DataFlow implementando a interface DataReader, para que outro aplicativo possa consumir os dados.
14) Usando SSIS (Serviço de Integração do SQL Server) quais são as maneiras possíveis de atualizar a tabela?
Para atualizar a tabela usando SSIS, as formas possíveis são:
- Use um comando SQL
- Use uma mesa de preparação
- Use Cache
- Use a tarefa de script
- Use o nome completo do banco de dados para atualização se MSSQL for usado
15) Caso você tenha uma fonte não OLEDB (Object Linking and Embedding Database) para a pesquisa, o que você faria?
Caso você tenha uma fonte não OLEBD para a pesquisa, você deve usar o Cache para carregar os dados e usá-los como fonte
16) Em que caso você usa cache dinâmico e cache estático em transformações conectadas e desconectadas?
- O cache dinâmico é usado quando você tem que atualizar a tabela mestre e alterar lentamente as dimensões (SCD) tipo 1
- Para arquivos simples, o cache estático é usado
17) Explique quais são as diferenças entre pesquisa desconectada e conectada?
Consulta conectada |
Consulta Desconectada |
|
- É usado quando a função de pesquisa é usada em vez de uma transformação de expressão durante o mapeamento |
|
- Retorna apenas uma porta de saída |
|
|
|
|
|
|
|
|
18) Explique o que é exibição da fonte de dados?
Uma visão da fonte de dados permite definir o esquema relacional que será usado nos bancos de dados de serviços de análise. Em vez de diretamente de objetos de fonte de dados, dimensões e cubos são criados a partir de visualizações de fonte de dados.
19) Explique qual é a diferença entre as ferramentas OLAP e as ferramentas ETL?
A diferença entre a ferramenta ETL e OLAP é que
A ferramenta ETL se destina à extração de dados dos sistemas legados e carrega em um banco de dados especificado com algum processo de limpeza de dados.
Exemplo: Estágio de dados, Informatica etc.
Enquanto OLAP se destina a fins de relatório em dados OLAP disponíveis no modelo multidirecional.
Exemplo: Business Objects, Cognos etc.
20) Como você pode extrair dados SAP usando a Informatica?
- Com a opção de conexão de energia, você extrai dados SAP usando informatica
- Instale e configure a ferramenta PowerConnect
- Importe a fonte para o Source Analyzer. Entre Informatica e SAP Powerconnect atue como um portal. O próximo passo é gerar o código ABAP para o mapeamento, então somente a informatica pode puxar os dados do SAP
- Para conectar e importar fontes de sistemas externos Power Connect é usado
21) Mencione qual é a diferença entre Power Mart e Power Center?
Power Center |
Power Mart |
|
|
|
|
|
|
|
|
22) Explique o que é área de teste e qual é a finalidade de uma área de teste?
A preparação de dados é uma área onde você mantém os dados temporários no servidor do data warehouse. O teste de dados inclui as seguintes etapas
- Extração de dados de origem e transformação de dados (reestruturação)
- Transformação de dados (limpeza de dados, transformação de valor)
- Atribuições de chave substituta
23) O que é Bus Schema?
Para que os vários processos de negócios identifiquem as dimensões comuns, o esquema BUS é usado. Ele vem com dimensões conformadas, juntamente com uma definição padronizada de informações
24) Explique o que é limpeza de dados?
A eliminação de dados é um processo de exclusão de dados do data warehouse. Ele exclui as linhas de dados inúteis com valores nulos ou espaços extras.
25) Explique o que são objetos de esquema?
Objetos de esquema são a estrutura lógica que se refere diretamente aos dados do banco de dados. Objetos de esquema incluem tabelas, visualizações, sinônimos de sequência, índices, clusters, pacotes de funções e links de banco de dados
26) Explique esses termos Sessão, Worklet, Mapplet e Fluxo de Trabalho?
- Mapplet: organiza ou cria conjuntos de transformação
- Worklet: representa um conjunto específico de tarefas fornecidas
- Fluxo de trabalho: é um conjunto de instruções que informa ao servidor como executar tarefas
- Sessão: É um conjunto de parâmetros que informa ao servidor como mover os dados das fontes para o destino
Download grátis de PDF: Perguntas e respostas sobre a entrevista de teste de ETL