Aprendizagem Não Supervisionada
Aprendizado não supervisionado é uma técnica de aprendizado de máquina em que os usuários não precisam supervisionar o modelo. Em vez disso, permite que o modelo trabalhe por conta própria para descobrir padrões e informações que não foram detectadas anteriormente. Ele lida principalmente com os dados não rotulados.
Algoritmos de aprendizagem não supervisionados
Os algoritmos de aprendizado não supervisionado permitem que os usuários realizem tarefas de processamento mais complexas em comparação com o aprendizado supervisionado. Embora, a aprendizagem não supervisionada possa ser mais imprevisível em comparação com outros métodos de aprendizagem naturais. Algoritmos de aprendizagem não supervisionados incluem agrupamento, detecção de anomalias, redes neurais, etc.
Neste tutorial, você aprenderá:
- Exemplo de aprendizado de máquina não supervisionado
- Por que aprendizagem não supervisionada?
- Tipos de aprendizagem não supervisionada
- Clustering
- Tipos de agrupamento
- Associação
- Aprendizado de máquina supervisionado x não supervisionado
- Aplicativos de aprendizado de máquina não supervisionado
- Desvantagens da aprendizagem não supervisionada
Exemplo de aprendizado de máquina não supervisionado
Vejamos o caso de um bebê e seu cachorro da família.
Ela conhece e identifica este cachorro. Poucas semanas depois, um amigo da família traz um cachorro e tenta brincar com o bebê.
O bebê não viu esse cachorro antes. Mas reconhece muitas características (2 orelhas, olhos, andar sobre 4 pernas) como seu cachorro de estimação. Ela identifica o novo animal como um cachorro. Este é um aprendizado não supervisionado, em que você não é ensinado, mas aprende com os dados (neste caso, dados sobre um cachorro). Se fosse um aprendizado supervisionado, o amigo da família teria dito ao bebê que é um cachorro.
Por que aprendizagem não supervisionada?
Aqui estão os principais motivos para usar a aprendizagem não supervisionada:
- O aprendizado de máquina não supervisionado encontra todos os tipos de padrões desconhecidos nos dados.
- Métodos não supervisionados ajudam a encontrar recursos que podem ser úteis para categorização.
- É realizado em tempo real, de forma que todos os dados de entrada sejam analisados e rotulados na presença dos alunos.
- É mais fácil obter dados não rotulados de um computador do que dados rotulados, que precisam de intervenção manual.
Tipos de aprendizagem não supervisionada
Problemas de aprendizagem não supervisionados posteriormente agrupados em problemas de agrupamento e associação.
Clustering
O agrupamento é um conceito importante quando se trata de aprendizagem não supervisionada. Trata principalmente de encontrar uma estrutura ou padrão em uma coleção de dados não categorizados. Os algoritmos de armazenamento em cluster irão processar seus dados e encontrar clusters naturais (grupos) se eles existirem nos dados. Você também pode modificar quantos clusters seus algoritmos devem identificar. Ele permite que você ajuste a granularidade desses grupos.
Existem diferentes tipos de cluster que você pode utilizar:
Exclusivo (particionamento)
Neste método de armazenamento em cluster, os dados são agrupados de tal forma que um dado pode pertencer a apenas um cluster.
Exemplo: K-médias
Aglomerativo
Nesta técnica de agrupamento, todos os dados são um agrupamento. As uniões iterativas entre os dois clusters mais próximos reduzem o número de clusters.
Exemplo: clustering hierárquico
Sobreposição
Nesta técnica, conjuntos fuzzy são usados para agrupar dados. Cada ponto pode pertencer a dois ou mais grupos com diferentes graus de associação.
Aqui, os dados serão associados a um valor de associação apropriado. Exemplo: Fuzzy C-Means
Probabilístico
Esta técnica usa distribuição de probabilidade para criar os clusters
Exemplo: seguintes palavras-chave
- "sapato de homem."
- "sapato feminino."
- "luva feminina."
- "luva de homem."
podem ser agrupados em duas categorias "sapato" e "luva" ou "homem" e "mulheres".
Tipos de agrupamento
- Agrupamento hierárquico
- Agrupamento K-means
- K-NN (k vizinhos mais próximos)
- Análise do componente principal
- Decomposição de valor singular
- Análise de Componentes Independentes
Agrupamento hierárquico:
O clustering hierárquico é um algoritmo que constrói uma hierarquia de clusters. Ele começa com todos os dados atribuídos a um cluster próprio. Aqui, dois agrupamentos próximos estarão no mesmo agrupamento. Este algoritmo termina quando há apenas um cluster restante.
Clustering K-means
K significa que é um algoritmo de agrupamento iterativo que o ajuda a encontrar o valor mais alto para cada iteração. Inicialmente, o número desejado de clusters é selecionado. Neste método de agrupamento, você precisa agrupar os pontos de dados em k grupos. Um k maior significa grupos menores com mais granularidade da mesma maneira. Um k inferior significa grupos maiores com menos granularidade.
A saída do algoritmo é um grupo de "rótulos". Ele atribui pontos de dados a um dos k grupos. No agrupamento k-means, cada grupo é definido criando um centróide para cada grupo. Os centróides são como o coração do cluster, que captura os pontos mais próximos a eles e os adiciona ao cluster.
O agrupamento K-mean define ainda dois subgrupos:
- Agrupamento aglomerativo
- Dendrograma
Agrupamento aglomerativo:
Este tipo de agrupamento K-means começa com um número fixo de clusters. Ele aloca todos os dados no número exato de clusters. Este método de armazenamento em cluster não requer o número de clusters K como entrada. O processo de aglomeração começa formando cada dado como um único cluster.
Este método usa alguma medida de distância, reduz o número de clusters (um em cada iteração) por processo de fusão. Por último, temos um grande cluster que contém todos os objetos.
Dendrograma:
No método de agrupamento de dendrogramas, cada nível representará um possível agrupamento. A altura do dendrograma mostra o nível de similaridade entre dois grupos de junção. Quanto mais perto do final do processo, eles são o agrupamento mais semelhante, o que é o achado do grupo do dendrograma que não é natural e é principalmente subjetivo.
K- Vizinhos mais próximos
K- vizinho mais próximo é o mais simples de todos os classificadores de aprendizado de máquina. Ele difere de outras técnicas de aprendizado de máquina, pois não produz um modelo. É um algoritmo simples que armazena todos os casos disponíveis e classifica novas instâncias com base em uma medida de similaridade.
Funciona muito bem quando há distância entre os exemplos. A velocidade de aprendizagem é lenta quando o conjunto de treinamento é grande e o cálculo da distância não é trivial.
Análise de componentes principais:
Caso você queira um espaço de dimensão superior. Você precisa selecionar uma base para esse espaço e apenas as 200 pontuações mais importantes dessa base. Essa base é conhecida como componente principal. O subconjunto selecionado é um novo espaço que é pequeno em comparação ao espaço original. Ele mantém o máximo possível da complexidade dos dados.
Associação
As regras de associação permitem que você estabeleça associações entre objetos de dados em grandes bancos de dados. Essa técnica não supervisionada visa descobrir relacionamentos interessantes entre variáveis em grandes bancos de dados. Por exemplo, pessoas que compram uma nova casa provavelmente comprarão móveis novos.
Outros exemplos:
- Um subgrupo de pacientes com câncer agrupados por suas medições de expressão gênica
- Grupos de compradores com base em seus históricos de navegação e compra
- Grupo de filmes pela classificação dada pelos espectadores de filmes
Aprendizado de máquina supervisionado x não supervisionado
Parâmetros | Técnica de aprendizado de máquina supervisionado | Técnica de aprendizado de máquina não supervisionado |
Dados de entrada | Os algoritmos são treinados usando dados rotulados. | Algoritmos são usados contra dados que não são rotulados |
Complexidade computacional | A aprendizagem supervisionada é um método mais simples. | A aprendizagem não supervisionada é computacionalmente complexa |
Precisão | Método altamente preciso e confiável. | Método menos preciso e confiável. |
Aplicativos de aprendizado de máquina não supervisionado
Algumas aplicações de técnicas de aprendizado de máquina não supervisionadas são:
- O clustering divide automaticamente o conjunto de dados em grupos com base em suas semelhanças
- A detecção de anomalias pode descobrir pontos de dados incomuns em seu conjunto de dados. É útil para encontrar transações fraudulentas
- Mineração de associação identifica conjuntos de itens que costumam ocorrer juntos em seu conjunto de dados
- Modelos de variáveis latentes são amplamente usados para pré-processamento de dados. Como reduzir o número de recursos em um conjunto de dados ou decompor o conjunto de dados em vários componentes
Desvantagens da aprendizagem não supervisionada
- Você não pode obter informações precisas sobre a classificação de dados, e a saída como dados usados na aprendizagem não supervisionada é rotulada e desconhecida
- A menor precisão dos resultados é porque os dados de entrada não são conhecidos e não rotulados pelas pessoas com antecedência. Isso significa que a máquina precisa fazer isso sozinha.
- As classes espectrais nem sempre correspondem às classes informacionais.
- O usuário precisa gastar tempo interpretando e rotulando as classes que seguem essa classificação.
- As propriedades espectrais das classes também podem mudar com o tempo, então você não pode ter as mesmas informações de classe enquanto se move de uma imagem para outra.
Resumo
- O aprendizado não supervisionado é uma técnica de aprendizado de máquina, em que você não precisa supervisionar o modelo.
- O aprendizado de máquina não supervisionado ajuda você a encontrar todos os tipos de padrões desconhecidos nos dados.
- Clustering e Association são dois tipos de aprendizagem não supervisionada.
- Quatro tipos de métodos de agrupamento são 1) Exclusivo 2) Aglomerativo 3) Sobreposição 4) Probabilístico.
- Os tipos de agrupamento importantes são: 1) Agrupamento hierárquico 2) Agrupamento de K-médias 3) K-NN 4) Análise de componente principal 5) Decomposição de valor singular 6) Análise de componente independente.
- As regras de associação permitem que você estabeleça associações entre objetos de dados em grandes bancos de dados.
- Na aprendizagem supervisionada, os algoritmos são treinados usando dados rotulados, enquanto na aprendizagem não supervisionada os algoritmos são usados em dados que não são rotulados.
- A detecção de anomalias pode descobrir pontos de dados importantes em seu conjunto de dados, o que é útil para localizar transações fraudulentas.
- A maior desvantagem do aprendizado não supervisionado é que você não pode obter informações precisas sobre a classificação de dados.