As 62 principais perguntas da entrevista com engenheiros de dados e amp; Respostas

Anonim

Aqui estão as perguntas mais frequentes da entrevista com engenheiros de dados para caloiros e também para candidatos experientes para conseguir o emprego certo.

1) Explique a Engenharia de Dados.

Engenharia de dados é um termo usado em big data. Ele se concentra na aplicação de coleta de dados e pesquisa. Os dados gerados a partir de várias fontes são apenas dados brutos. A engenharia de dados ajuda a converter esses dados brutos em informações úteis.

2) O que é modelagem de dados?

Modelagem de dados é o método de documentar projetos de software complexos como um diagrama para que qualquer pessoa possa entender facilmente. É uma representação conceitual de objetos de dados que estão associados entre vários objetos de dados e as regras.

3) Liste vários tipos de esquemas de design em Modelagem de Dados

Existem basicamente dois tipos de esquemas na modelagem de dados: 1) Esquema em estrela e 2) Esquema em floco de neve.

4) Distinguir entre dados estruturados e não estruturados

A seguir está uma diferença entre dados estruturados e não estruturados:

Parâmetro Dados Estruturados Dados Não Estruturados
Armazenar DBMS Estruturas de arquivos não gerenciados
Padrão ADO.net, ODBC e SQL STMP, XML, CSV e SMS
Ferramenta de Integração ELT (Extrair, Transformar, Carregar) Entrada manual de dados ou processamento em lote que inclui códigos
escala O escalonamento do esquema é difícil O dimensionamento é muito fácil.

5) Explique todos os componentes de um aplicativo Hadoop

A seguir estão os componentes do aplicativo Hadoop:

  • Hadoop Common: é um conjunto comum de utilitários e bibliotecas que são utilizados pelo Hadoop.
  • HDFS: este aplicativo Hadoop está relacionado ao sistema de arquivos no qual os dados do Hadoop são armazenados. É um sistema de arquivos distribuído com alta largura de banda.
  • Hadoop MapReduce: é baseado de acordo com o algoritmo para o fornecimento de processamento de dados em grande escala.
  • Hadoop YARN: é usado para gerenciamento de recursos dentro do cluster Hadoop. Também pode ser usado para agendamento de tarefas para usuários.

6) O que é NameNode?

É a peça central do HDFS. Ele armazena dados de HDFS e rastreia vários arquivos nos clusters. Aqui, os dados reais não são armazenados. Os dados são armazenados em DataNodes.

7) Defina o streaming do Hadoop

É um utilitário que permite a criação do mapa e reduz trabalhos e os envia para um cluster específico.

8) Qual é a forma completa de HDFS?

HDFS significa Hadoop Distributed File System.

9) Definir Bloco e Scanner de Bloco em HDFS

Os blocos são a menor unidade de um arquivo de dados. O Hadoop divide automaticamente arquivos enormes em pequenos pedaços.

O Block Scanner verifica a lista de blocos que são apresentados em um DataNode.

10) Quais são as etapas que ocorrem quando o Block Scanner detecta um bloco de dados corrompido?

A seguir estão as etapas que ocorrem quando o Block Scanner encontra um bloco de dados corrompido:

1) Em primeiro lugar, quando Block Scanner encontrar um bloco de dados corrompido, o DataNode reporta para NameNode

2) NameNode inicia o processo de criação de uma nova réplica usando uma réplica do bloco corrompido.

3) A contagem de replicação das réplicas corretas tenta corresponder ao fator de replicação. Se a correspondência encontrada, o bloco de dados corrompido não será excluído.

11) Nomeie duas mensagens que NameNode obtém de DataNode?

Existem duas mensagens que NameNode obtém de DataNode. Eles são 1) Relatório de bloco e 2) Pulsação.

12) Listar vários arquivos de configuração XML no Hadoop?

Existem cinco arquivos de configuração XML no Hadoop:

  • Mapred-site
  • Core-site
  • Site HDFS
  • Yarn-site

13) Quais são os quatro Vs do big data?

Os quatro Vs do big data são:

  • Velocidade
  • Variedade
  • Volume
  • Veracidade

14) Explicar os recursos do Hadoop

Recursos importantes do Hadoop são:

  • É uma estrutura de código aberto disponível como freeware.
  • O Hadoop é compatível com os vários tipos de hardware e é fácil de acessar o novo hardware em um nó específico.
  • O Hadoop oferece suporte ao processamento distribuído de dados mais rápido.
  • Ele armazena os dados no cluster, que é independente do resto das operações.
  • O Hadoop permite a criação de 3 réplicas para cada bloco com nós diferentes.

15) Explicar os principais métodos do Redutor

  • setup (): É usado para configurar parâmetros como o tamanho dos dados de entrada e cache distribuído.
  • cleanup (): Este método é usado para limpar arquivos temporários.
  • reduzir (): É um coração do redutor que é chamado uma vez por tecla com a tarefa reduzida associada

16) Qual é a abreviatura de COSHH?

A abreviatura de COSHH é Cronograma baseado em classificação e otimização para sistemas Hadoop heterogêneos.

17) Explique o esquema em estrela

Star Schema ou Star Join Schema é o tipo mais simples de esquema de Data Warehouse. É conhecido como esquema em estrela porque sua estrutura é como uma estrela. No esquema Star, o centro da estrela pode ter uma tabela de fatos e várias tabelas de dimensões associadas. Este esquema é usado para consultar grandes conjuntos de dados.

18) Como implantar uma solução de big data?

Siga as etapas a seguir para implantar uma solução de big data.

1) Integre dados usando fontes de dados como RDBMS, SAP, MySQL, Salesforce

2) Armazene dados extraídos em banco de dados NoSQL ou HDFS.

3) Implantar solução de big data usando estruturas de processamento como Pig, Spark e MapReduce.

19) Explique o FSCK

A verificação do sistema de arquivos ou FSCK é o comando usado pelo HDFS. O comando FSCK é usado para verificar inconsistências e problemas no arquivo.

20) Explique o esquema do floco de neve

Um Esquema em Floco de Neve é ​​uma extensão de um Esquema em Estrela e adiciona dimensões adicionais. É chamado de floco de neve porque seu diagrama se parece com um floco de neve. As tabelas de dimensão são normalizadas, o que divide os dados em tabelas adicionais.

21) Distinguir entre Star e Snowflake Schema

Estrela Esquema do Floco de Neve
Hierarquias de dimensões são armazenadas na tabela dimensional. Cada hierarquia é armazenada em tabelas separadas.
As chances de redundância de dados são altas As chances de redundância de dados são baixas.
Tem um design de banco de dados muito simples Ele tem um design de banco de dados complexo
Fornece uma maneira mais rápida de processamento de cubos O processamento do cubo é lento devido à junção complexa.

22) Explique o sistema de arquivos distribuídos Hadoop

O Hadoop funciona com sistemas de arquivos distribuídos escalonáveis ​​como S3, HFTP FS, FS e HDFS. O Hadoop Distributed File System é feito no Google File System. Esse sistema de arquivos foi projetado de forma que possa ser executado facilmente em um grande cluster do sistema de computador.

23) Explicar as principais responsabilidades de um engenheiro de dados

Os engenheiros de dados têm muitas responsabilidades. Eles gerenciam o sistema de origem dos dados. Os engenheiros de dados simplificam a estrutura de dados complexa e evitam a reduplicação de dados. Muitas vezes, eles também fornecem ELT e transformação de dados.

24) Qual é a forma completa do YARN?

O formulário completo do YARN é Yet Another Resource Negotiator.

25) Liste vários modos no Hadoop

Os modos no Hadoop são 1) Modo independente 2) Modo pseudo distribuído 3) Modo totalmente distribuído.

26) Como obter segurança no Hadoop?

Execute as seguintes etapas para obter segurança no Hadoop:

1) A primeira etapa é proteger o canal de autenticação do cliente para o servidor. Fornece carimbo de data / hora ao cliente.

2) Na segunda etapa, o cliente usa a marcação de horário recebida para solicitar TGS para um tíquete de serviço.

3) Na última etapa, o cliente usa o tíquete de serviço para auto-autenticação para um servidor específico.

27) O que é Heartbeat no Hadoop?

No Hadoop, NameNode e DataNode comunicam-se entre si. Heartbeat é o sinal enviado por DataNode para NameNode regularmente para mostrar sua presença.

28) Distinguir entre NAS e DAS no Hadoop

NAS DAS
A capacidade de armazenamento é de 10 9 a 10 12 bytes. A capacidade de armazenamento é de 10 9 bytes.
O custo de gerenciamento por GB é moderado. O custo de gerenciamento por GB é alto.
Transmita dados usando Ethernet ou TCP / IP. Transmitir dados usando IDE / SCSI

29) Liste campos ou idiomas importantes usados ​​pelo engenheiro de dados

Aqui estão alguns campos ou linguagens usadas pelo engenheiro de dados:

  • Probabilidade, bem como álgebra linear
  • Aprendizado de máquina
  • Análise de tendências e regressão
  • Bancos de dados Hive QL e SQL

30) O que é Big Data?

É uma grande quantidade de dados estruturados e não estruturados, que não podem ser facilmente processados ​​pelos métodos tradicionais de armazenamento de dados. Os engenheiros de dados estão usando o Hadoop para gerenciar big data.

31) O que é escalonamento FIFO?

É um algoritmo de agendamento do Hadoop Job. Nesta programação FIFO, um relator seleciona trabalhos de uma fila de trabalho, o trabalho mais antigo primeiro.

32) Mencione os números de porta padrão em que o rastreador de tarefa, NameNode e rastreador de trabalho são executados no Hadoop

Os números de porta padrão em que o rastreador de tarefa, NameNode e rastreador de trabalho são executados no Hadoop são os seguintes:

  • O rastreador de tarefas é executado na porta 50060
  • NameNode é executado na porta 50070
  • Job Tracker é executado na porta 50030

33) Como desabilitar o Block Scanner no HDFS Data Node

Para desativar o Block Scanner no HDFS Data Node, defina dfs.datanode.scan.period.hours como 0.

34) Como definir a distância entre dois nós no Hadoop?

A distância é igual à soma da distância até os nós mais próximos. O método getDistance () é usado para calcular a distância entre dois nós.

35) Por que usar hardware comum no Hadoop?

O hardware básico é fácil de obter e acessível. É um sistema compatível com Windows, MS-DOS ou Linux.

36) Definir o fator de replicação no HDFS

O fator de replicação é o número total de réplicas de um arquivo no sistema.

37) Quais dados são armazenados no NameNode?

Namenode armazena os metadados para o HDFS, como informações de bloco e informações de namespace.

38) O que você entende por Rack Awareness?

No cluster Haddop, o Namenode usa o Datanode para melhorar o tráfego da rede ao ler ou gravar qualquer arquivo que esteja mais próximo do rack próximo para solicitação de leitura ou gravação. Namenode mantém a id do rack de cada DataNode para obter informações do rack. Este conceito é denominado Rack Awareness no Hadoop.

39) Quais são as funções do Secondary NameNode?

A seguir estão as funções do NameNode secundário:

  • FsImage que armazena uma cópia do arquivo EditLog e FsImage.
  • Falha do NameNode: Se o NameNode falhar, o FsImage do NameNode secundário pode ser usado para recriar o NameNode.
  • Checkpoint: é usado pelo Secondary NameNode para confirmar que os dados não estão corrompidos no HDFS.
  • Atualizar: Ele atualiza automaticamente o arquivo EditLog e FsImage. Isso ajuda a manter o arquivo FsImage no Secondary NameNode atualizado.

40) O que acontece quando o NameNode está desativado e o usuário envia um novo trabalho?

NameNode é o único ponto de falha no Hadoop, portanto, o usuário não pode enviar uma nova tarefa não pode executar. Se o NameNode estiver inativo, o trabalho pode falhar, pois o usuário precisa esperar que o NameNode seja reiniciado antes de executar qualquer trabalho.

41) Quais são as fases básicas do redutor no Hadoop?

Existem três fases básicas de um redutor no Hadoop:

1. Shuffle: Aqui, o Redutor copia a saída do Mapper.

2. Classificar: em classificação, o Hadoop classifica a entrada para o Redutor usando a mesma chave.

3. Reduzir: nesta fase, os valores de saída associados a uma chave são reduzidos para consolidar os dados na saída final.

42) Por que o Hadoop usa o objeto Context?

A estrutura do Hadoop usa o objeto Context com a classe Mapper para interagir com o sistema restante. O objeto de contexto obtém os detalhes de configuração do sistema e o trabalho em seu construtor.

Usamos o objeto Context para passar as informações nos métodos setup (), cleanup () e map (). Este objeto disponibiliza informações vitais durante as operações do mapa.

43) Definir Combiner no Hadoop

É uma etapa opcional entre Mapear e Reduzir. O Combiner obtém a saída da função Map, cria pares de valores-chave e envia ao Redutor Hadoop. A tarefa do Combiner é resumir o resultado final do Mapa em registros de resumo com uma chave idêntica.

44) Qual é o fator de replicação padrão disponível no HDFS O que indica?

O fator de replicação padrão disponível no HDFS é três. O fator de replicação padrão indica que haverá três réplicas de cada dados.

45) O que você quer dizer com Localidade de dados no Hadoop?

Em um sistema de Big Data, o tamanho dos dados é enorme e é por isso que não faz sentido mover dados pela rede. Agora, o Hadoop tenta mover a computação para mais perto dos dados. Dessa forma, os dados permanecem locais para o local armazenado.

46) Definir balanceador em HDFS

No HDFS, o balanceador é um administrador usado pela equipe administrativa para reequilibrar dados entre DataNodes e mover blocos de nós superutilizados para nós subutilizados.

47) Explique o modo de segurança em HDFS

É um modo somente leitura de NameNode em um cluster. Inicialmente, NameNode está em Safemode. Impede a gravação no sistema de arquivos no modo de segurança. Neste momento, ele coleta dados e estatísticas de todos os DataNodes.

48) Qual é a importância do Cache Distribuído no Apache Hadoop?

O Hadoop tem um recurso de utilitário útil, denominado Cache Distribuído, que melhora o desempenho das tarefas ao armazenar em cache os arquivos utilizados pelos aplicativos. Um aplicativo pode especificar um arquivo para o cache usando a configuração JobConf.

A estrutura do Hadoop torna a réplica desses arquivos para os nós em que uma tarefa deve ser executada. Isso é feito antes do início da execução da tarefa. O Cache Distribuído oferece suporte à distribuição de arquivos somente leitura, bem como de arquivos zips e jars.

49) O que é Metastore no Hive?

Ele armazena o esquema, bem como a localização da tabela Hive.

A tabela Hive define, mapeamentos e metadados que são armazenados no Metastore. Isso pode ser armazenado em RDBMS compatível com JPOX.

50) O que significa SerDe no Hive?

SerDe é um nome curto para Serializer ou Deserializer. No Hive, o SerDe permite ler dados da tabela e gravar em um campo específico em qualquer formato que você quiser.

51) Lista de componentes disponíveis no modelo de dados Hive

Existem os seguintes componentes no modelo de dados Hive:

  • Mesas
  • Partições
  • Baldes

52) Explique o uso do Hive no ecossistema Hadoop.

O Hive fornece uma interface para gerenciar dados armazenados no ecossistema Hadoop. O Hive é usado para mapear e trabalhar com tabelas HBase. As consultas do Hive são convertidas em trabalhos MapReduce para ocultar a complexidade associada à criação e execução de trabalhos MapReduce.

53) Liste vários tipos / coletas de dados complexos suportados pelo Hive

O Hive oferece suporte aos seguintes tipos de dados complexos:

  • Mapa
  • Struct
  • Variedade
  • União

54) Explicar como o arquivo .hiverc no Hive é usado?

No Hive, .hiverc é o arquivo de inicialização. Este arquivo é inicialmente carregado quando iniciamos a Command Line Interface (CLI) para Hive. Podemos definir os valores iniciais dos parâmetros no arquivo .hiverc.

55) É possível criar mais de uma tabela no Hive para um único arquivo de dados?

Sim, podemos criar mais de um esquema de tabela para um arquivo de dados. O Hive salva o esquema no Hive Metastore. Com base nesse esquema, podemos recuperar resultados diferentes dos mesmos dados.

56) Explique as diferentes implementações do SerDe disponíveis no Hive

Existem muitas implementações SerDe disponíveis no Hive. Você também pode escrever sua própria implementação SerDe personalizada. A seguir estão algumas implementações famosas do SerDe:

  • OpenCSVSerde
  • RegexSerDe
  • DelimitedJSONSerDe
  • ByteStreamTypedSerDe

57) Funções de geração de tabela de lista disponíveis no Hive

A seguir está uma lista de funções geradoras de tabela:

  • Explode (array)
  • JSON_tuple ()
  • Pilha()
  • Explodir (mapa)

58) O que é uma mesa enviesada no Hive?

Uma tabela distorcida é uma tabela que contém valores de coluna com mais frequência. No Hive, quando especificamos uma tabela como SKEWED durante a criação, os valores distorcidos são gravados em arquivos separados e os valores restantes vão para outro arquivo.

59) Liste os objetos criados pela instrução create no MySQL.

Os objetos criados pela instrução create no MySQL são os seguintes:

  • Base de dados
  • Índice
  • Mesa
  • Do utilizador
  • Procedimento
  • Desencadear
  • Evento
  • Visualizar
  • Função

60) Como ver a estrutura do banco de dados no MySQL?

Para ver a estrutura do banco de dados no MySQL, você pode usar

Comando DESCRIBE. A sintaxe deste comando é DESCRIBE Table name ;.

61) Como procurar uma string específica na coluna da tabela MySQL?

Use o operador regex para pesquisar uma String na coluna MySQL. Aqui, também podemos definir vários tipos de expressão regular e pesquisar usando regex.

62) Explique como a análise de dados e big data podem aumentar a receita da empresa.

A seguir estão as maneiras como a análise de dados e big data podem aumentar a receita da empresa:

  • Use os dados de forma eficiente para garantir o crescimento do negócio.
  • Aumente o valor do cliente.
  • Tornando-se analítico para melhorar as previsões dos níveis de pessoal.
  • Reduzindo o custo de produção das organizações.