Aprendizado de máquina supervisionado: o que é, algoritmos, exemplo

Índice:

Anonim

O que é aprendizado de máquina supervisionado?

No aprendizado supervisionado, você treina a máquina usando dados que são bem "rotulados ". Isso significa que alguns dados já estão marcados com a resposta correta. Pode ser comparado a uma aprendizagem que ocorre na presença de um supervisor ou professor.

Um algoritmo de aprendizado supervisionado aprende a partir de dados de treinamento rotulados e ajuda a prever resultados para dados imprevistos.

A construção, o dimensionamento e a implantação bem-sucedidos de modelos de aprendizado de máquina supervisionados exigem tempo e conhecimento técnico de uma equipe de cientistas de dados altamente qualificados. Além disso, o cientista de dados deve reconstruir modelos para garantir que os insights fornecidos permaneçam verdadeiros até que seus dados sejam alterados.

Neste tutorial, você aprenderá:

  • O que é aprendizado de máquina supervisionado?
  • Como funciona a aprendizagem supervisionada
  • Tipos de algoritmos de aprendizado de máquina supervisionados
  • Técnicas de aprendizado de máquina supervisionadas x não supervisionadas
  • Desafios no aprendizado de máquina supervisionado
  • Vantagens da aprendizagem supervisionada:
  • Desvantagens da Aprendizagem Supervisionada
  • Melhores práticas para aprendizagem supervisionada

Como funciona a aprendizagem supervisionada

Por exemplo, você deseja treinar uma máquina para ajudá-lo a prever quanto tempo levará para voltar do local de trabalho para casa. Aqui, você começa criando um conjunto de dados rotulados. Esses dados incluem

  • Condições do tempo
  • Hora do dia
  • Feriados

Todos esses detalhes são suas entradas. A saída é a quantidade de tempo que levou para dirigir de volta para casa naquele dia específico.

Você sabe instintivamente que, se estiver chovendo lá fora, demorará mais para dirigir para casa. Mas a máquina precisa de dados e estatísticas.

Vamos ver agora como você pode desenvolver um modelo de aprendizado supervisionado deste exemplo que ajude o usuário a determinar o tempo de deslocamento. A primeira coisa que você precisa para criar é um conjunto de treinamento. Este conjunto de treinamento conterá o tempo total de deslocamento e fatores correspondentes, como clima, tempo, etc. Com base neste conjunto de treinamento, sua máquina pode ver que há uma relação direta entre a quantidade de chuva e o tempo que você levará para chegar em casa.

Assim, ele verifica que quanto mais chover, mais tempo você estará dirigindo para voltar para sua casa. Ele também pode ver a conexão entre o tempo em que você sai do trabalho e o tempo em que estará na estrada.

Quanto mais perto das 18h, mais tempo você leva para chegar em casa. Sua máquina pode encontrar algumas das relações com seus dados rotulados.

Este é o início do seu modelo de dados. Começa a impactar como a chuva afeta a maneira como as pessoas dirigem. Ele também começa a perceber que mais pessoas viajam durante um determinado período do dia.

Tipos de algoritmos de aprendizado de máquina supervisionados

Regressão:

A técnica de regressão prevê um único valor de saída usando dados de treinamento.

Exemplo : você pode usar a regressão para prever o preço da casa a partir dos dados de treinamento. As variáveis ​​de entrada serão localidade, tamanho de uma casa, etc.

Pontos fortes : as saídas sempre têm uma interpretação probabilística e o algoritmo pode ser regularizado para evitar overfitting.

Pontos fracos : a regressão logística pode ter um desempenho inferior quando há limites de decisão múltiplos ou não lineares. Este método não é flexível, portanto, não captura relacionamentos mais complexos.

Regressão Logística:

Método de regressão logística usado para estimar valores discretos com base em um determinado conjunto de variáveis ​​independentes. Ajuda a prever a probabilidade de ocorrência de um evento ajustando os dados a uma função logit. Portanto, também é conhecido como regressão logística. Como ele prevê a probabilidade, seu valor de saída fica entre 0 e 1.

Aqui estão alguns tipos de algoritmos de regressão

Classificação:

Classificação significa agrupar a saída dentro de uma classe. Se o algoritmo tenta rotular a entrada em duas classes distintas, isso é chamado de classificação binária. A seleção entre mais de duas classes é chamada de classificação multiclasse.

Exemplo : determinar se alguém será ou não inadimplente do empréstimo.

Pontos fortes : a árvore de classificação funciona muito bem na prática

Fraquezas : As árvores individuais sem restrições são propensas a sobreajuste.

Aqui estão alguns tipos de algoritmos de classificação

Classificadores Naïve Bayes

O modelo Naïve Bayesian (NBN) é fácil de construir e muito útil para grandes conjuntos de dados. Este método é composto de gráficos acíclicos diretos com um dos pais e vários filhos. Ele assume independência entre os nós filhos separados de seus pais.

Árvores de decisão

As árvores de decisão classificam a instância classificando-as com base no valor do recurso. Nesse método, cada modo é o recurso de uma instância. Deve ser classificado, e cada ramo representa um valor que o nó pode assumir. É uma técnica amplamente utilizada para classificação. Neste método, a classificação é uma árvore conhecida como árvore de decisão.

Ajuda a estimar valores reais (custo de aquisição de um carro, número de chamadas, faturamento total mensal, etc.)

Máquina de vetores de suporte

Máquina de vetores de suporte (SVM) é um tipo de algoritmo de aprendizagem desenvolvido em 1990. Este método é baseado em resultados da teoria de aprendizagem estatística introduzida por Vap Nik.

As máquinas SVM também estão intimamente conectadas às funções do kernel, que é um conceito central para a maioria das tarefas de aprendizagem. A estrutura do kernel e o SVM são usados ​​em uma variedade de campos. Inclui recuperação de informações multimídia, bioinformática e reconhecimento de padrões.

Técnicas de aprendizado de máquina supervisionadas x não supervisionadas

Baseado em Técnica de aprendizado de máquina supervisionado Técnica de aprendizado de máquina não supervisionado
Dados de entrada Os algoritmos são treinados usando dados rotulados. Algoritmos são usados ​​contra dados que não são rotulados
Complexidade computacional A aprendizagem supervisionada é um método mais simples. A aprendizagem não supervisionada é computacionalmente complexa
Precisão Método altamente preciso e confiável. Método menos preciso e confiável.

Desafios no aprendizado de máquina supervisionado

Aqui estão os desafios enfrentados no aprendizado de máquina supervisionado:

  • Dados de treinamento presentes de recurso de entrada irrelevante podem fornecer resultados imprecisos
  • A preparação e o pré-processamento de dados são sempre um desafio.
  • A precisão é prejudicada quando valores impossíveis, improváveis ​​e incompletos são inseridos como dados de treinamento
  • Se o especialista em questão não estiver disponível, a outra abordagem é a "força bruta". Isso significa que você precisa pensar nos recursos certos (variáveis ​​de entrada) para treinar a máquina. Pode ser impreciso.

Vantagens da aprendizagem supervisionada:

  • A aprendizagem supervisionada permite que você colete dados ou produza uma saída de dados da experiência anterior
  • Ajuda a otimizar os critérios de desempenho usando a experiência
  • O aprendizado de máquina supervisionado ajuda a resolver vários tipos de problemas de computação do mundo real.

Desvantagens da Aprendizagem Supervisionada

  • O limite de decisão pode estar sobrecarregado se seu conjunto de treinamento não tiver exemplos que você deseja ter em uma aula
  • Você precisa selecionar muitos bons exemplos de cada classe enquanto treina o classificador.
  • Classificar big data pode ser um verdadeiro desafio.
  • O treinamento para aprendizagem supervisionada requer muito tempo de computação.

Melhores práticas para aprendizagem supervisionada

  • Antes de fazer qualquer outra coisa, você precisa decidir que tipo de dados será usado como um conjunto de treinamento
  • Você precisa decidir a estrutura da função aprendida e do algoritmo de aprendizagem.
  • Obtenha resultados correspondentes de especialistas humanos ou de medições

Resumo

  • No aprendizado supervisionado, você treina a máquina usando dados que são bem "rotulados".
  • Você deseja treinar uma máquina que o ajude a prever quanto tempo levará para voltar do seu local de trabalho para casa é um exemplo de aprendizagem supervisionada
  • A regressão e a classificação são dois tipos de técnicas de aprendizado de máquina supervisionado.
  • O aprendizado supervisionado é um método mais simples, enquanto o aprendizado não supervisionado é um método complexo.
  • O maior desafio no aprendizado supervisionado é que os dados de treinamento do presente recurso de entrada irrelevante podem fornecer resultados imprecisos.
  • A principal vantagem do aprendizado supervisionado é que ele permite que você colete dados ou produza uma saída de dados da experiência anterior.
  • A desvantagem desse modelo é que o limite de decisão pode ser sobrecarregado se seu conjunto de treinamento não tiver exemplos que você deseja ter em uma aula.
  • Como prática recomendada para supervisionar o aprendizado, primeiro você precisa decidir que tipo de dados deve ser usado como um conjunto de treinamento.