As 50 perguntas mais frequentes da entrevista de aprendizado de máquina e Respostas

Anonim

baixar PDF

1) O que é aprendizado de máquina?

O aprendizado de máquina é um ramo da ciência da computação que lida com a programação de sistemas para aprender e melhorar automaticamente com a experiência. Por exemplo: os robôs são programados para que possam realizar a tarefa com base nos dados que coletam dos sensores. Ele aprende programas automaticamente a partir de dados.

2) Mencionar a diferença entre Data Mining e Machine Learning?

O aprendizado de máquina está relacionado ao estudo, projeto e desenvolvimento de algoritmos que dão aos computadores a capacidade de aprender sem serem explicitamente programados. Já a mineração de dados pode ser definida como o processo no qual os dados não estruturados tentam extrair conhecimento ou padrões interessantes desconhecidos. Durante esta máquina de processo, algoritmos de aprendizagem são usados.

3) O que é 'overfitting' no aprendizado de máquina?

No aprendizado de máquina, quando um modelo estatístico descreve um erro aleatório ou ruído em vez de um relacionamento subjacente, ocorre um 'overfitting'. Quando um modelo é excessivamente complexo, o overfitting é normalmente observado, devido ao excesso de parâmetros em relação ao número de tipos de dados de treinamento. O modelo apresenta desempenho ruim que foi ajustado demais.

4) Por que acontece o overfitting?

A possibilidade de overfitting existe, pois os critérios usados ​​para treinar o modelo não são os mesmos que os critérios usados ​​para julgar a eficácia de um modelo.

5) Como você pode evitar o sobreajuste?

Usando muitos dados, o overfitting pode ser evitado, o overfitting acontece relativamente, pois você tem um pequeno conjunto de dados e tenta aprender com ele. Mas se você tem um banco de dados pequeno e é forçado a vir com um modelo baseado nisso. Em tal situação, você pode usar uma técnica conhecida como validação cruzada . Neste método, o conjunto de dados se divide em duas seções, conjuntos de dados de teste e treinamento, o conjunto de dados de teste apenas testará o modelo enquanto, no conjunto de dados de treinamento, os pontos de dados surgirão com o modelo.

Nesta técnica, um modelo geralmente recebe um conjunto de dados de dados conhecidos no qual o treinamento (conjunto de dados de treinamento) é executado e um conjunto de dados desconhecidos contra os quais o modelo é testado. A ideia da validação cruzada é definir um conjunto de dados para “testar” o modelo na fase de treinamento.

6) O que é aprendizado de máquina indutivo?

O aprendizado de máquina indutivo envolve o processo de aprendizado por exemplos, onde um sistema, a partir de um conjunto de instâncias observadas, tenta induzir uma regra geral.

7) Quais são os cinco algoritmos populares de Aprendizado de Máquina?

  • Árvores de decisão
  • Redes Neurais (retropropagação)
  • Redes probabilísticas
  • Vizinho mais próximo
  • Máquinas de vetor de suporte

8) Quais são as diferentes técnicas de Algoritmo em Aprendizado de Máquina?

Os diferentes tipos de técnicas de aprendizado de máquina são

  • Aprendizagem Supervisionada
  • Aprendizagem Não Supervisionada
  • Aprendizagem Semi-Supervisionada
  • Aprendizagem por Reforço
  • Transdução
  • Aprendendo a aprender

9) Quais são as três etapas para construir as hipóteses ou modelo em aprendizado de máquina?

  • Construção de modelo
  • Teste de modelo
  • Aplicando o modelo

10) Qual é a abordagem padrão para a aprendizagem supervisionada?

A abordagem padrão para o aprendizado supervisionado é dividir o conjunto de exemplos em conjunto de treinamento e teste.

11) O que é 'Conjunto de treinamento' e 'Conjunto de teste'?

Em várias áreas da ciência da informação, como aprendizado de máquina, um conjunto de dados é usado para descobrir o relacionamento potencialmente preditivo conhecido como 'Conjunto de treinamento'. Conjunto de treinamento é um exemplo dado ao aluno, enquanto Conjunto de teste é usado para testar a precisão das hipóteses geradas pelo aluno e é o conjunto de exemplos retido do aluno. O conjunto de treinamento é diferente do conjunto de teste.

12) Listar várias abordagens para aprendizado de máquina?

As diferentes abordagens no aprendizado de máquina são

  • Conceito Vs Aprendizagem por Classificação
  • Aprendizagem Simbólica Vs Estatística
  • Aprendizagem Indutiva Vs Analítica

13) O que não é aprendizado de máquina?

  • Inteligência artificial
  • Inferência baseada em regras

14) Explique qual é a função da 'Aprendizagem Não Supervisionada'?

  • Encontre clusters de dados
  • Encontre representações de baixa dimensão dos dados
  • Encontre direções interessantes nos dados
  • Coordenadas e correlações interessantes
  • Encontre novas observações / limpeza de banco de dados

15) Explique qual é a função da 'Aprendizagem Supervisionada'?

  • Classificações
  • Reconhecimento de fala
  • Regressão
  • Prever séries temporais
  • Anotar strings

16) O que é aprendizado de máquina independente de algoritmo?

O aprendizado de máquina em que os fundamentos matemáticos são independentes de qualquer classificador ou algoritmo de aprendizado específico é referido como aprendizado de máquina independente de algoritmo?

17) Qual é a diferença entre aprendizado artificial e aprendizado de máquina?

Projetar e desenvolver algoritmos de acordo com os comportamentos baseados em dados empíricos são conhecidos como Aprendizado de Máquina. Embora a inteligência artificial, além do aprendizado de máquina, também cobre outros aspectos como representação do conhecimento, processamento de linguagem natural, planejamento, robótica, etc.

18) O que é classificador no aprendizado de máquina?

Um classificador em um Aprendizado de Máquina é um sistema que insere um vetor de valores de recursos discretos ou contínuos e produz um único valor discreto, a classe.

19) Quais são as vantagens do Naive Bayes?

No Naïve Bayes, o classificador convergirá mais rápido do que modelos discriminativos como regressão logística, portanto, você precisa de menos dados de treinamento. A principal vantagem é que ele não consegue aprender as interações entre os recursos.

20) Em que áreas o reconhecimento de padrões é usado?

O reconhecimento de padrões pode ser usado em

  • Visão Computacional
  • Reconhecimento de fala
  • Mineração de dados
  • Estatisticas
  • Recuperação Informal
  • Bioinformática

21) O que é programação genética?

A programação genética é uma das duas técnicas usadas no aprendizado de máquina. O modelo é baseado no teste e na seleção da melhor escolha entre um conjunto de resultados.

22) O que é Programação em Lógica Indutiva em Aprendizado de Máquina?

A Programação Lógica Indutiva (ILP) é um subcampo do aprendizado de máquina que usa a programação lógica que representa o conhecimento prévio e exemplos.

23) O que é Seleção de Modelo em Aprendizado de Máquina?

O processo de seleção de modelos entre diferentes modelos matemáticos, que são usados ​​para descrever o mesmo conjunto de dados, é conhecido como Seleção de Modelo. A seleção de modelos é aplicada aos campos de estatística, aprendizado de máquina e mineração de dados.

24) Quais são os dois métodos usados ​​para a calibração na Aprendizagem Supervisionada?

Os dois métodos usados ​​para prever boas probabilidades na Aprendizagem Supervisionada são

  • Calibração Platt
  • Regressão Isotônica

Esses métodos são projetados para classificação binária e não é trivial.

25) Qual método é freqüentemente usado para prevenir overfitting?

Quando há dados suficientes, a 'Regressão Isotônica' é usada para evitar um problema de sobreajuste.

26) Qual é a diferença entre heurística para aprendizado de regras e heurística para árvores de decisão?

A diferença é que as heurísticas para árvores de decisão avaliam a qualidade média de vários conjuntos desarticulados, enquanto os aprendizes de regras avaliam apenas a qualidade do conjunto de instâncias que é coberto pela regra candidata.

27) O que é Perceptron em Aprendizado de Máquina?

No Aprendizado de Máquina, Perceptron é um algoritmo para classificação supervisionada da entrada em uma das várias saídas não binárias possíveis.

28) Explique os dois componentes do programa de lógica bayesiana?

O programa de lógica bayesiana consiste em dois componentes. O primeiro componente é lógico; consiste em um conjunto de cláusulas bayesianas, que captura a estrutura qualitativa do domínio. O segundo componente é quantitativo, ele codifica as informações quantitativas sobre o domínio.

29) O que são Redes Bayesianas (BN)?

Rede Bayesiana é usada para representar o modelo gráfico para relacionamento de probabilidade entre um conjunto de variáveis.

30) Por que algoritmo de aprendizado baseado em instância às vezes referido como algoritmo de aprendizado lento?

O algoritmo de aprendizado baseado em instância também é conhecido como algoritmo de aprendizado lento, pois ele atrasa o processo de indução ou generalização até que a classificação seja realizada.

31) Quais são os dois métodos de classificação que o SVM (Support Vector Machine) pode manipular?

  • Combinando classificadores binários
  • Modificar binário para incorporar aprendizagem multiclasse

32) O que é aprendizagem em conjunto?

Para resolver um programa computacional específico, vários modelos, como classificadores ou especialistas, são estrategicamente gerados e combinados. Este processo é conhecido como aprendizagem em conjunto.

33) Por que a aprendizagem em conjunto é usada?

A aprendizagem por ensemble é usada para melhorar a classificação, previsão, aproximação de funções, etc. de um modelo.

34) Quando usar o aprendizado conjunto?

O aprendizado do ensemble é usado quando você cria classificadores de componentes que são mais precisos e independentes uns dos outros.

35) Quais são os dois paradigmas dos métodos de ensemble?

Os dois paradigmas dos métodos de conjunto são

  • Métodos de conjunto sequencial
  • Métodos de conjunto paralelo

36) Qual é o princípio geral de um método de ensemble e o que é bagging e boosting no método de ensemble?

O princípio geral de um método de ensemble é combinar as previsões de vários modelos construídos com um determinado algoritmo de aprendizagem, a fim de melhorar a robustez de um único modelo. Bagging é um método em conjunto para melhorar a estimativa instável ou os esquemas de classificação. Embora o método de reforço seja usado sequencialmente para reduzir o viés do modelo combinado. Tanto o Boosting quanto o Bagging podem reduzir os erros, reduzindo o termo de variância.

37) O que é decomposição de viés-variância do erro de classificação no método de ensemble?

O erro esperado de um algoritmo de aprendizagem pode ser decomposto em viés e variância. Um termo de polarização mede o quão próximo o classificador médio produzido pelo algoritmo de aprendizagem corresponde à função de destino. O termo de variância mede o quanto a previsão do algoritmo de aprendizado flutua para diferentes conjuntos de treinamento.

38) O que é um algoritmo de aprendizado incremental em conjunto?

Método de aprendizagem incremental é a capacidade de um algoritmo de aprender a partir de novos dados que podem estar disponíveis depois que o classificador já foi gerado a partir de um conjunto de dados já disponível.

39) Para que são usados ​​o PCA, KPCA e ICA?

PCA (Análise de Componentes Principais), KPCA (Análise de Componentes Principais Baseada em Kernel) e ICA (Análise de Componentes Independentes) são técnicas de extração de recursos importantes usadas para redução de dimensionalidade.

40) O que é redução de dimensão no Aprendizado de Máquina?

No aprendizado de máquina e nas estatísticas, a redução de dimensão é o processo de redução do número de variáveis ​​aleatórias em consideração e pode ser dividido em seleção e extração de recursos.

41) O que são máquinas de vetores de suporte?

As máquinas de vetores de suporte são algoritmos de aprendizado supervisionado usados ​​para classificação e análise de regressão.

42) Quais são os componentes das técnicas de avaliação relacional?

Os componentes importantes das técnicas de avaliação relacional são

  • Aquisição de dados
  • Aquisição da verdade do terreno
  • Técnica de validação cruzada
  • Tipo de consulta
  • Pontuação Métrica
  • Teste de Significância

43) Quais são os diferentes métodos de Aprendizagem Supervisionada Sequencial?

Os diferentes métodos para resolver problemas de aprendizagem supervisionada sequencial são

  • Métodos de janela deslizante
  • Janelas deslizantes recorrentes
  • Modelos ocultos de Markow
  • Modelos de Markow de entropia máxima
  • Campos aleatórios condicionais
  • Redes de transformadores gráficos

44) Quais são as áreas da robótica e do processamento de informações onde surge o problema de predição sequencial?

As áreas em robótica e processamento de informação onde surge o problema de predição sequencial são

  • Aprendizagem de imitação
  • Previsão estruturada
  • Aprendizagem por reforço baseada em modelo

45) O que é aprendizagem estatística em lote?

As técnicas de aprendizagem estatística permitem aprender uma função ou preditor a partir de um conjunto de dados observados que podem fazer previsões sobre dados não vistos ou futuros. Essas técnicas fornecem garantias sobre o desempenho do preditor aprendido nos dados não vistos futuros com base em uma suposição estatística sobre o processo de geração de dados.

46) O que é PAC Learning?

Aprendizagem PAC (Provavelmente Aproximadamente Correta) é uma estrutura de aprendizagem que foi introduzida para analisar algoritmos de aprendizagem e sua eficiência estatística.

47) Quais são as diferentes categorias que você pode categorizar no processo de aprendizagem de sequência?

  • Previsão de sequência
  • Geração de sequência
  • Reconhecimento de sequência
  • Decisão sequencial

48) O que é aprendizado de sequência?

A aprendizagem sequencial é um método de ensino e aprendizagem de maneira lógica.

49) Quais são as duas técnicas de Aprendizado de Máquina?

As duas técnicas de aprendizado de máquina são

  • Programação Genética
  • Aprendizagem Indutiva
50) Oferecer um aplicativo popular de aprendizado de máquina que você vê no dia a dia?

O mecanismo de recomendação implementado pelos principais sites de comércio eletrônico usa aprendizado de máquina.