O que é Matriz de confusão?
Uma matriz de confusão é uma técnica de medição de desempenho para classificação de aprendizado de máquina. É uma espécie de tabela que ajuda a conhecer o desempenho do modelo de classificação em um conjunto de dados de teste para que sejam conhecidos os verdadeiros valores. O termo matriz de confusão em si é muito simples, mas sua terminologia relacionada pode ser um pouco confusa. Aqui, algumas explicações simples são fornecidas para esta técnica.
Neste tutorial, você aprenderá,
- O que é matriz de confusão?
- Quatro resultados da matriz de confusão
- Exemplo de matriz de confusão:
- Como calcular uma matriz de confusão
- Outros termos importantes usando uma matriz de confusão
- Por que você precisa da matriz de confusão?
Quatro resultados da matriz de confusão
A matriz de confusão visualiza a precisão de um classificador comparando as classes reais e previstas. A matriz de confusão binária é composta por quadrados:
- TP: Verdadeiro positivo: valores previstos corretamente previstos como positivos reais
- FP: Os valores previstos previram incorretamente um positivo real. ou seja, valores negativos previstos como positivos
- FN: Falso Negativo: Valores positivos previstos como negativos
- TN: Verdadeiro negativo: valores previstos corretamente previstos como um negativo real
Você pode calcular o teste de precisão da matriz de confusão:
Exemplo de matriz de confusão:
O Confusion Matrix é um método útil de aprendizado de máquina que permite medir o recall, a precisão, a exatidão e a curva AUC-ROC. Abaixo é fornecido um exemplo para conhecer os termos Verdadeiro positivo, Verdadeiro negativo, Falso negativo e Verdadeiro negativo.
Verdadeiro positivo:
Você projetou algo positivo e acabou sendo verdade. Por exemplo, você previu que a França venceria a copa do mundo e venceu.
Verdadeiro negativo:
Quando você previu negativo, e é verdade. Você previu que a Inglaterra não ganharia e perdeu.
Falso positivo:
Sua previsão é positiva e falsa.
Você previu que a Inglaterra iria ganhar, mas perdeu.
Falso negativo:
Sua previsão é negativa e o resultado também é falso.
Você previu que a França não venceria, mas venceu.
Você deve se lembrar que descrevemos os valores previstos como Verdadeiro ou Falso ou Positivo e Negativo.
Como calcular uma matriz de confusão
Aqui está o processo passo a passo para calcular uma matriz de confusão em mineração de dados
- Etapa 1) Primeiro, você precisa testar o conjunto de dados com seus valores de resultado esperados.
- Etapa 2) Prever todas as linhas no conjunto de dados de teste.
- Etapa 3) Calcule as previsões e resultados esperados:
- O total de previsões corretas de cada classe.
- O total de previsões incorretas de cada classe.
Depois disso, esses números são organizados nos métodos fornecidos abaixo:
- Cada linha da matriz está ligada a uma classe prevista.
- Cada coluna da matriz corresponde a uma aula real.
- As contagens totais de classificação correta e incorreta são inseridas na tabela.
- A soma das previsões corretas para uma classe vai para a coluna prevista e linha esperada para esse valor de classe.
- A soma das previsões incorretas para uma classe vai para a linha esperada para esse valor de classe e a coluna prevista para esse valor de classe específico.
Outros termos importantes usando uma matriz de confusão
- Valor preditivo positivo (PVV): é muito próximo da precisão. Uma diferença significativa entre os dois termos é que o PVV considera a prevalência. Na situação em que as classes estão perfeitamente balanceadas, o valor preditivo positivo é igual à precisão.
- Taxa de erro nulo: este termo é usado para definir quantas vezes sua previsão estaria errada se você pudesse prever a classe majoritária. Você pode considerá-lo como uma métrica de linha de base para comparar seu classificador.
- Pontuação F: a pontuação F1 é uma pontuação média ponderada do verdadeiro positivo (recuperação) e da precisão.
- Curva Roc: a curva Roc mostra as taxas de verdadeiros positivos em relação à taxa de falsos positivos em vários pontos de corte. Também demonstra uma compensação entre sensibilidade (recall e especificidade ou a taxa negativa verdadeira).
- Precisão: a métrica de precisão mostra a exatidão da classe positiva. Ele mede a probabilidade de a previsão da classe positiva estar correta.
A pontuação máxima é 1 quando o classificador classifica perfeitamente todos os valores positivos. A precisão por si só não é muito útil porque ignora a classe negativa. A métrica geralmente é emparelhada com a métrica Recall. A recuperação também é chamada de sensibilidade ou taxa positiva verdadeira.
- Sensibilidade : A sensibilidade calcula a proporção de classes positivas detectadas corretamente. Essa métrica mostra o quão bom o modelo é para reconhecer uma classe positiva.
Por que você precisa da matriz de confusão?
Aqui estão os prós / benefícios de usar uma matriz de confusão.
- Mostra como qualquer modelo de classificação fica confuso ao fazer previsões.
- A matriz de confusão não apenas fornece uma visão dos erros cometidos por seu classificador, mas também os tipos de erros cometidos.
- Essa divisão ajuda a superar a limitação de usar apenas a precisão da classificação.
- Cada coluna da matriz de confusão representa as instâncias dessa classe prevista.
- Cada linha da matriz de confusão representa as instâncias da classe real.
- Ele fornece uma visão não apenas dos erros cometidos por um classificador, mas também dos erros que estão sendo cometidos.