As 50 principais perguntas e respostas da entrevista de ciência de dados

Anonim

A seguir estão as perguntas mais frequentes em entrevistas de emprego para caloiros, bem como para cientistas de dados experientes.

1. O que é ciência de dados?

Data Science é uma combinação de algoritmos, ferramentas e técnicas de aprendizado de máquina que ajudam você a encontrar padrões ocultos comuns dos dados brutos fornecidos.

2. O que é regressão logística em Data Science?

A regressão logística também é chamada de modelo logit. É um método para prever o resultado binário de uma combinação linear de variáveis ​​preditoras.

3. Cite três tipos de vieses que podem ocorrer durante a amostragem

No processo de amostragem, existem três tipos de vieses, que são:

  • Viés de seleção
  • Polarização de subcobertura
  • Viés de sobrevivência

4. Discuta o algoritmo da árvore de decisão

Uma árvore de decisão é um algoritmo de aprendizado de máquina supervisionado popular. É usado principalmente para regressão e classificação. Ele permite quebrar um conjunto de dados em subconjuntos menores. A árvore de decisão pode lidar com dados categóricos e numéricos.

5. O que é probabilidade e probabilidade anteriores?

A probabilidade anterior é a proporção da variável dependente no conjunto de dados, enquanto a probabilidade é a probabilidade de classificar um determinado observador na presença de alguma outra variável.

6. Explicar os sistemas de recomendação?

É uma subclasse de técnicas de filtragem de informações. Ajuda a prever as preferências ou avaliações que os usuários provavelmente darão a um produto.

7. Cite três desvantagens de usar um modelo linear

Três desvantagens do modelo linear são:

  • A suposição de linearidade dos erros.
  • Você não pode usar este modelo para resultados binários ou de contagem
  • Existem muitos problemas de overfitting que ele não consegue resolver

8. Por que você precisa realizar uma reamostragem?

A reamostragem é feita nos casos abaixo:

  • Estimar a precisão das estatísticas de amostra, retirando aleatoriamente com substituição de um conjunto de pontos de dados ou usando como subconjuntos de dados acessíveis
  • Substituição de rótulos em pontos de dados ao realizar os testes necessários
  • Validando modelos usando subconjuntos aleatórios

9. Liste as bibliotecas em Python usadas para análise de dados e computação científica.

  • SciPy
  • Pandas
  • Matplotlib
  • NumPy
  • SciKit
  • Seaborn

10. O que é análise de potência?

A análise de potência é parte integrante do projeto experimental. Ajuda a determinar o tamanho da amostra requer para descobrir o efeito de um determinado tamanho de uma causa com um nível específico de garantia. Ele também permite que você implemente uma probabilidade específica em uma restrição de tamanho de amostra.

11. Explique a filtragem colaborativa

Filtragem colaborativa usada para pesquisar padrões corretos por pontos de vista colaborativos, várias fontes de dados e vários agentes.

12. O que é preconceito?

Polarização é um erro introduzido em seu modelo devido à simplificação excessiva de um algoritmo de aprendizado de máquina. "Pode levar a ajustes insuficientes.

13. Discutir 'Ingênuo' em um algoritmo Naive Bayes?

O modelo do Algoritmo Naive Bayes é baseado no Teorema de Bayes. Ele descreve a probabilidade de um evento. É baseado no conhecimento prévio das condições que podem estar relacionadas a esse evento específico.

14. O que é regressão linear?

A regressão linear é um método de programação estatística em que a pontuação de uma variável 'A' é prevista a partir da pontuação de uma segunda variável 'B'. B é referido como a variável preditora e A como a variável de critério.

15. Indique a diferença entre o valor esperado e o valor médio

Não são muitas diferenças, mas ambos os termos são usados ​​em contextos diferentes. O valor médio geralmente é referido quando você está discutindo uma distribuição de probabilidade, enquanto o valor esperado é referido no contexto de uma variável aleatória.

16. Qual é o objetivo da realização de testes A / B?

Teste AB usado para conduzir experimentos aleatórios com duas variáveis, A e B. O objetivo deste método de teste é descobrir mudanças em uma página da web para maximizar ou aumentar o resultado de uma estratégia.

17. O que é Ensemble Learning?

O conjunto é um método de combinar um conjunto diversificado de alunos para improvisar sobre a estabilidade e o poder preditivo do modelo. Dois tipos de métodos de aprendizagem do Ensemble são:

Ensacamento

O método de ensacamento ajuda a implementar alunos semelhantes em pequenas populações de amostra. Ajuda você a fazer previsões mais precisas.

Boosting

Boosting é um método iterativo que permite ajustar o peso de uma observação dependendo da última classificação. O reforço diminui o erro de polarização e ajuda a construir modelos preditivos fortes.

18. Explique o valor próprio e o vetor próprio

Os vetores próprios servem para compreender as transformações lineares. O cientista de dados precisa calcular os vetores próprios para uma matriz de covariância ou correlação. Os valores próprios são as direções ao longo do uso de atos de transformação linear específicos por compressão, inversão ou alongamento.

19. Defina o termo validação cruzada

A validação cruzada é uma técnica de validação para avaliar como os resultados da análise estatística serão generalizados para um conjunto de dados independente. Este método é usado em planos de fundo onde o objetivo é previsto e é necessário estimar o quão precisamente um modelo será realizado.

20. Explique as etapas para um projeto de análise de dados

A seguir estão as etapas importantes envolvidas em um projeto de análise:

  • Entenda o problema do negócio
  • Explore os dados e estude-os cuidadosamente.
  • Prepare os dados para modelagem, encontrando valores ausentes e transformando variáveis.
  • Comece a executar o modelo e analise o resultado do Big Data.
  • Valide o modelo com o novo conjunto de dados.
  • Implemente o modelo e acompanhe o resultado para analisar o desempenho do modelo para um período específico.

21. Discuta redes neurais artificiais

Redes Neurais Artificiais (RNA) são um conjunto especial de algoritmos que revolucionaram o aprendizado de máquina. Isso ajuda você a se adaptar de acordo com a mudança de entrada. Assim, a rede gera o melhor resultado possível sem redesenhar os critérios de saída.

22. O que é retropropagação?

A propagação reversa é a essência do treinamento da rede neural. É o método de ajustar os pesos de uma rede neural em função da taxa de erro obtida na época anterior. O ajuste adequado do ajuda a reduzir as taxas de erro e a tornar o modelo confiável, aumentando sua generalização.

23. O que é uma floresta aleatória?

Floresta aleatória é um método de aprendizado de máquina que ajuda você a realizar todos os tipos de tarefas de regressão e classificação. Ele também é usado para tratar valores ausentes e valores atípicos.

24. Qual é a importância de haver um viés de seleção?

O viés de seleção ocorre quando não há randomização específica alcançada durante a seleção de indivíduos ou grupos ou dados a serem analisados. Isso sugere que a amostra dada não representa exatamente a população que se pretendia analisar.

25. O que é o método de agrupamento K-means?

O agrupamento K-means é um importante método de aprendizagem não supervisionado. É a técnica de classificação de dados usando um determinado conjunto de clusters que é chamado de K clusters. Ele é implantado para agrupamento para descobrir a semelhança nos dados.

26. Explique a diferença entre Data Science e Data Analytics

Os cientistas de dados precisam dividir os dados para extrair percepções valiosas que um analista de dados pode aplicar a cenários de negócios do mundo real. A principal diferença entre os dois é que os cientistas de dados têm mais conhecimento técnico do que analistas de negócios. Além disso, eles não precisam entender os negócios necessários para a visualização de dados.

27. Explique o valor p?

Quando você conduz um teste de hipótese em estatísticas, um valor p permite determinar a força de seus resultados. É um número numérico entre 0 e 1. Com base no valor, ele o ajudará a denotar a força do resultado específico.

28. Defina o termo aprendizagem profunda

Aprendizado profundo é um subtipo de aprendizado de máquina. Trata-se de algoritmos inspirados na estrutura denominada redes neurais artificiais (RNA).

29. Explique o método para coletar e analisar dados para usar a mídia social para prever as condições meteorológicas.

Você pode coletar dados de mídia social usando Facebook, Twitter, APIs do Instagram. Por exemplo, para o tweeter, podemos construir um recurso de cada tweet como data do tweet, retuítes, lista de seguidores, etc. Em seguida, você pode usar um modelo de série temporal multivariada para prever a condição do tempo.

30. Quando você precisa atualizar o algoritmo em Ciência de dados?

Você precisa atualizar um algoritmo na seguinte situação:

  • Você deseja que seu modelo de dados evolua como fluxos de dados usando infraestrutura
  • A fonte de dados subjacente está mudando

    Se não for estacionário

31. O que é distribuição normal

Uma distribuição normal é um conjunto de uma variável contínua espalhada por uma curva normal ou na forma de uma curva de sino. Você pode considerá-la como uma distribuição de probabilidade contínua que é útil em estatísticas. É útil analisar as variáveis ​​e seus relacionamentos quando estamos usando a curva de distribuição normal.

32. Qual idioma é o melhor para análise de texto? R ou Python?

Python será mais adequado para análise de texto, pois consiste em uma rica biblioteca conhecida como pandas. Ele permite que você use ferramentas de análise de dados de alto nível e estruturas de dados, enquanto o R não oferece esse recurso.

33. Explique os benefícios do uso de estatísticas por cientistas de dados

As estatísticas ajudam o cientista de dados a ter uma ideia melhor das expectativas do cliente. Usando o método estatístico Data Scientists podem obter conhecimento sobre o interesse do consumidor, comportamento, engajamento, retenção, etc. Isso também ajuda a construir modelos de dados poderosos para validar certas inferências e previsões.

34. Cite vários tipos de estruturas de aprendizado profundo

  • Pytorch
  • Kit de ferramentas cognitivas da Microsoft
  • TensorFlow
  • Caffe
  • Chainer
  • Keras

35. Explicar o codificador automático

Autoencoders são redes de aprendizagem. Ajuda a transformar entradas em saídas com menos erros. Isso significa que você obterá a saída o mais próximo possível da entrada.

36. Definir máquina Boltzmann

As máquinas Boltzmann são um algoritmo de aprendizagem simples. Ajuda a descobrir os recursos que representam regularidades complexas nos dados de treinamento. Este algoritmo permite otimizar os pesos e a quantidade para o problema em questão.

37. Explique por que a limpeza de dados é essencial e qual método você usa para manter os dados limpos

Dados sujos muitas vezes levam ao interior incorreto, o que pode prejudicar a perspectiva de qualquer organização. Por exemplo, se você deseja executar uma campanha de marketing direcionada. No entanto, nossos dados informam incorretamente que um produto específico terá demanda por seu público-alvo; a campanha irá falhar.

38. O que é distribuição enviesada e distribuição uniforme?

A distribuição distorcida ocorre quando os dados são distribuídos em qualquer um dos lados do gráfico, enquanto a distribuição uniforme é identificada quando os dados são espalhados é igual no intervalo.

39. Quando ocorre underfitting em um modelo estático?

O subajuste ocorre quando um modelo estatístico ou algoritmo de aprendizado de máquina não consegue capturar a tendência subjacente dos dados.

40. O que é aprendizagem por reforço?

Aprendizagem por Reforço é um mecanismo de aprendizagem sobre como mapear situações para ações. O resultado final deve ajudá-lo a aumentar o sinal de recompensa binária. Nesse método, não é dito ao aluno qual ação tomar, mas, em vez disso, deve descobrir qual ação oferece uma recompensa máxima. Como este método é baseado no mecanismo de recompensa / penalidade.

41. Cite os algoritmos comumente usados.

Os quatro algoritmos mais comumente usados ​​pelo cientista de dados são:

  • Regressão linear
  • Regressão logística
  • Floresta Aleatória
  • KNN

42. O que é precisão?

A precisão é a métrica de erro mais comumente usada é o mecanismo de classificação n. Seu intervalo é de 0 a 1, onde 1 representa 100%

43. O que é uma análise univariada?

Uma análise que não é aplicada a nenhum atributo por vez é conhecida como análise univariada. Boxplot é um modelo univariado amplamente utilizado.

44. Como você supera os desafios às suas descobertas?

Para superar os desafios da minha descoberta é preciso estimular a discussão, Demonstrar liderança e respeitar as diferentes opções.

45. Explique a técnica de amostragem por agrupamento em ciência de dados

Um método de amostragem por conglomerados é usado quando é difícil estudar a população-alvo espalhada e a amostragem aleatória simples não pode ser aplicada.

46. ​​Declare a diferença entre um conjunto de validação e um conjunto de teste

Um conjunto de validação geralmente considerado como parte do conjunto de treinamento, pois é usado para a seleção de parâmetros, o que ajuda a evitar ajustes excessivos do modelo que está sendo construído.

Enquanto um conjunto de testes é usado para testar ou avaliar o desempenho de um modelo de aprendizado de máquina treinado.

47. Explique o termo Fórmula de probabilidade binomial?

"A distribuição binomial contém as probabilidades de todos os sucessos possíveis em N tentativas para eventos independentes que têm uma probabilidade de ocorrência de π."

48. O que é um recall?

Um recall é uma razão entre a taxa positiva verdadeira e a taxa positiva real. Ele varia de 0 a 1.

49. Discuta a distribuição normal

Distribuição normal igualmente distribuída como tal, a média, mediana e moda são iguais.

50. Ao trabalhar em um conjunto de dados, como você pode selecionar variáveis ​​importantes? Explicar

Você pode usar os seguintes métodos de seleção de variáveis:

  • Remova as variáveis ​​correlacionadas antes de selecionar variáveis ​​importantes
  • Use a regressão linear e selecione as variáveis ​​que dependem desses valores de p.
  • Use Backward, Forward Selection e Stepwise Selection
  • Use Xgboost, Random Forest e plote o gráfico de importância variável.
  • Meça o ganho de informações para um determinado conjunto de recursos e selecione os n principais recursos de acordo.

51. É possível capturar a correlação entre variável contínua e categórica?

Sim, podemos usar a técnica de análise de covariância para capturar a associação entre variáveis ​​contínuas e categóricas.

52. Tratar uma variável categórica como uma variável contínua resultaria em um modelo preditivo melhor?

Sim, o valor categórico deve ser considerado como uma variável contínua apenas quando a variável é de natureza ordinal. Portanto, é um modelo preditivo melhor.