Aprendizagem supervisionada versus não supervisionada: principais diferenças

Índice:

Anonim

O que é aprendizado de máquina supervisionado?

No aprendizado supervisionado, você treina a máquina usando dados que são bem "rotulados ". Isso significa que alguns dados já estão marcados com a resposta correta. Pode ser comparado a uma aprendizagem que ocorre na presença de um supervisor ou professor.

Um algoritmo de aprendizado supervisionado aprende a partir de dados de treinamento rotulados e ajuda a prever resultados para dados imprevistos. Criar, dimensionar e implantar com sucesso o aprendizado de máquina supervisionado O modelo de ciência de dados exige tempo e conhecimento técnico de uma equipe de cientistas de dados altamente qualificados. Além disso, o cientista de dados deve reconstruir modelos para garantir que os insights fornecidos permaneçam verdadeiros até que seus dados sejam alterados.

Neste tutorial, você aprenderá

  • O que é aprendizado de máquina supervisionado?
  • O que é aprendizagem não supervisionada?
  • Por que aprendizagem supervisionada?
  • Por que aprendizagem não supervisionada?
  • Como funciona a aprendizagem supervisionada?
  • Como funciona a aprendizagem não supervisionada?
  • Tipos de técnicas de aprendizado de máquina supervisionadas
  • Tipos de técnicas de aprendizado de máquina não supervisionadas
  • Aprendizagem supervisionada vs. aprendizagem não supervisionada

O que é aprendizagem não supervisionada?

O aprendizado não supervisionado é uma técnica de aprendizado de máquina, em que você não precisa supervisionar o modelo. Em vez disso, você precisa permitir que o modelo trabalhe por conta própria para descobrir informações. Ele lida principalmente com os dados não rotulados.

Os algoritmos de aprendizado não supervisionado permitem que você execute tarefas de processamento mais complexas em comparação ao aprendizado supervisionado. Embora, o aprendizado não supervisionado possa ser mais imprevisível em comparação com outros métodos de aprendizado profundo e de reforço de aprendizado natural.

Por que aprendizagem supervisionada?

  • O aprendizado supervisionado permite que você colete dados ou produza uma saída de dados da experiência anterior.
  • Ajuda a otimizar os critérios de desempenho usando a experiência
  • O aprendizado de máquina supervisionado ajuda a resolver vários tipos de problemas de computação do mundo real.

Por que aprendizagem não supervisionada?

Aqui estão os principais motivos para usar a aprendizagem não supervisionada:

  • O aprendizado de máquina não supervisionado encontra todos os tipos de padrões desconhecidos nos dados.
  • Métodos não supervisionados ajudam a encontrar recursos que podem ser úteis para categorização.
  • É realizado em tempo real, de forma que todos os dados de entrada sejam analisados ​​e rotulados na presença dos alunos.
  • É mais fácil obter dados não rotulados de um computador do que dados rotulados, que precisam de intervenção manual.

Como funciona a aprendizagem supervisionada?

Por exemplo, você deseja treinar uma máquina para ajudá-lo a prever quanto tempo levará para voltar do local de trabalho para casa. Aqui, você começa criando um conjunto de dados rotulados. Esses dados incluem

  • Condições do tempo
  • Hora do dia
  • Feriados

Todos esses detalhes são suas entradas. A saída é a quantidade de tempo que levou para dirigir de volta para casa naquele dia específico.

Você sabe instintivamente que, se estiver chovendo lá fora, demorará mais para dirigir para casa. Mas a máquina precisa de dados e estatísticas.

Vamos ver agora como você pode desenvolver um modelo de aprendizado supervisionado deste exemplo que ajude o usuário a determinar o tempo de deslocamento. A primeira coisa que você precisa para criar é um conjunto de dados de treinamento. Este conjunto de treinamento conterá o tempo total de deslocamento e fatores correspondentes, como clima, tempo, etc. Com base neste conjunto de treinamento, sua máquina pode ver que há uma relação direta entre a quantidade de chuva e o tempo que você levará para chegar em casa.

Assim, ele verifica que quanto mais chover, mais tempo você estará dirigindo para voltar para sua casa. Ele também pode ver a conexão entre o tempo em que você sai do trabalho e o tempo em que estará na estrada.

Quanto mais perto das 18h, mais tempo você leva para chegar em casa. Sua máquina pode encontrar algumas das relações com seus dados rotulados.

Este é o início do seu modelo de dados. Começa a impactar como a chuva afeta a maneira como as pessoas dirigem. Ele também começa a perceber que mais pessoas viajam durante um determinado período do dia.

Como funciona a aprendizagem não supervisionada?

Vejamos o caso de um bebê e seu cachorro da família.

Ela conhece e identifica este cachorro. Algumas semanas depois, um amigo da família traz um cachorro e tenta brincar com o bebê.

O bebê não viu esse cachorro antes. Mas reconhece muitas características (2 orelhas, olhos, andar sobre 4 pernas) como seu cachorro de estimação. Ela identifica um novo animal como um cachorro. Este é um aprendizado não supervisionado, em que você não é ensinado, mas aprende com os dados (neste caso, dados sobre um cachorro). Se fosse um aprendizado supervisionado, o amigo da família teria dito ao bebê que é um cachorro.

Tipos de técnicas de aprendizado de máquina supervisionadas

Regressão:

A técnica de regressão prevê um único valor de saída usando dados de treinamento.

Exemplo: você pode usar a regressão para prever o preço da casa a partir dos dados de treinamento. As variáveis ​​de entrada serão localidade, tamanho de uma casa, etc.

Classificação:

Classificação significa agrupar a saída dentro de uma classe. Se o algoritmo tenta rotular a entrada em duas classes distintas, isso é chamado de classificação binária. A seleção entre mais de duas classes é chamada de classificação multiclasse.

Exemplo : determinar se alguém será ou não inadimplente do empréstimo.

Pontos fortes : as saídas sempre têm uma interpretação probabilística e o algoritmo pode ser regularizado para evitar overfitting.

Pontos fracos : a regressão logística pode ter um desempenho inferior quando há limites de decisão múltiplos ou não lineares. Este método não é flexível, portanto, não captura relacionamentos mais complexos.

Tipos de técnicas de aprendizado de máquina não supervisionadas

Problemas de aprendizagem não supervisionados posteriormente agrupados em problemas de agrupamento e associação.

Clustering

O agrupamento é um conceito importante quando se trata de aprendizagem não supervisionada. Trata principalmente de encontrar uma estrutura ou padrão em uma coleção de dados não categorizados. Os algoritmos de armazenamento em cluster irão processar seus dados e encontrar clusters naturais (grupos) se eles existirem nos dados. Você também pode modificar quantos clusters seus algoritmos devem identificar. Ele permite que você ajuste a granularidade desses grupos.

Associação

As regras de associação permitem que você estabeleça associações entre objetos de dados em grandes bancos de dados. Essa técnica não supervisionada visa descobrir relacionamentos interessantes entre variáveis ​​em grandes bancos de dados. Por exemplo, pessoas que compram uma nova casa provavelmente comprarão móveis novos.

Outros exemplos:

  • Um subgrupo de pacientes com câncer agrupados por suas medições de expressão gênica
  • Grupos de compradores com base em seus históricos de navegação e compra
  • Grupo de filmes pela classificação dada pelos espectadores de filmes

Aprendizagem supervisionada vs. aprendizagem não supervisionada

Parâmetros Técnica de aprendizado de máquina supervisionado Técnica de aprendizado de máquina não supervisionado
Processar Em um modelo de aprendizado supervisionado, as variáveis ​​de entrada e saída serão fornecidas. No modelo de aprendizagem não supervisionado, apenas os dados de entrada serão fornecidos
Dados de entrada Os algoritmos são treinados usando dados rotulados. Algoritmos são usados ​​contra dados que não são rotulados
Algoritmos Usados Máquina de vetores de suporte, rede neural, regressão linear e logística, floresta aleatória e árvores de classificação. Algoritmos não supervisionados podem ser divididos em diferentes categorias: como algoritmos de cluster, K-médias, cluster hierárquico, etc.
Complexidade computacional A aprendizagem supervisionada é um método mais simples. A aprendizagem não supervisionada é computacionalmente complexa
Uso de Dados O modelo de aprendizado supervisionado usa dados de treinamento para aprender um link entre a entrada e as saídas. O aprendizado não supervisionado não usa dados de saída.
Precisão dos resultados Método altamente preciso e confiável. Método menos preciso e confiável.
Aprendizagem em tempo real O método de aprendizagem ocorre offline. O método de aprendizagem ocorre em tempo real.
Número de aulas O número de classes é conhecido. O número de classes não é conhecido.
Principal Desvantagem Classificar big data pode ser um verdadeiro desafio no aprendizado supervisionado. Você não pode obter informações precisas sobre a classificação de dados, e a saída como dados usados ​​no aprendizado não supervisionado é rotulada e desconhecida.

Resumo

  • No aprendizado supervisionado, você treina a máquina usando dados que são bem "rotulados".
  • O aprendizado não supervisionado é uma técnica de aprendizado de máquina, em que você não precisa supervisionar o modelo.
  • O aprendizado supervisionado permite que você colete dados ou produza uma saída de dados da experiência anterior.
  • O aprendizado de máquina não supervisionado ajuda você a encontrar todos os tipos de padrões desconhecidos nos dados.
  • Por exemplo, você será capaz de determinar o tempo necessário para chegar de volta com base nas condições climáticas, horas do dia e feriados.
  • Por exemplo, o bebê pode identificar outros cães com base no aprendizado supervisionado passado.
  • A regressão e a classificação são dois tipos de técnicas de aprendizado de máquina supervisionado.
  • Clustering e Association são dois tipos de aprendizagem não supervisionada.
  • Em um modelo de aprendizado supervisionado, as variáveis ​​de entrada e saída serão fornecidas, enquanto no modelo de aprendizado não supervisionado, apenas os dados de entrada serão fornecidos