Neste tutorial, você aprenderá
- Regressão Linear Simples
- Regressão linear múltipla
- Variáveis contínuas
- Regressão de fatores
- Regressão Stepwise
- Aprendizado de máquina
- Aprendizagem supervisionada
- Aprendizagem não supervisionada
Regressão Linear Simples
A regressão linear responde a uma pergunta simples: você pode medir uma relação exata entre uma variável de destino e um conjunto de preditores?
O mais simples dos modelos probabilísticos é o modelo de linha reta:
Onde
- y = variável dependente
- x = variável independente
- = componente de erro aleatório
- = interceptar
- = Coeficiente de x
Considere o seguinte gráfico:
A equação é é a interceptação. Se x for igual a 0, y será igual à interceptação, 4,77. é a inclinação da linha. Ele informa em qual proporção y varia quando x varia.
Para estimar os valores ótimos de , você usa um método chamado Ordinary Least Squares (OLS) . Este método tenta encontrar os parâmetros que minimizam a soma dos erros quadráticos, ou seja, a distância vertical entre os valores y previstos e os valores y reais. A diferença é conhecida como termo de erro .
Antes de estimar o modelo, você pode determinar se uma relação linear entre y e x é plausível traçando um gráfico de dispersão.
Gráfico de dispersão
Usaremos um conjunto de dados muito simples para explicar o conceito de regressão linear simples. Vamos importar as alturas e pesos médios para mulheres americanas. O conjunto de dados contém 15 observações. Você deseja medir se as alturas estão positivamente correlacionadas com os pesos.
library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()
Resultado:
O gráfico de dispersão sugere uma tendência geral para y aumentar à medida que x aumenta. Na próxima etapa, você medirá quanto aumenta para cada adicional.
Estimativas de mínimos quadrados
Em uma regressão OLS simples, o cálculo de é direto. O objetivo não é mostrar a derivação neste tutorial. Você só vai escrever a fórmula.
Você deseja estimar:
O objetivo da regressão OLS é minimizar a seguinte equação:
Onde
é o valor previsto.
A solução para
Observe que significa o valor médio de x
A solução para
Em R, você pode usar as funções cov () e var () para estimar
beta <- cov(df$height, df$weight) / var (df$height)beta
Resultado:
##[1] 3.45
alpha <- mean(df$weight) - beta * mean(df$height)alpha
Resultado:
## [1] -87.51667
O coeficiente beta implica que para cada altura adicional, o peso aumenta em 3,45.
Estimar equações lineares simples manualmente não é o ideal. R fornece uma função adequada para estimar esses parâmetros. Você verá esta função em breve. Antes disso, apresentaremos como calcular manualmente um modelo de regressão linear simples. Em sua jornada como cientista de dados, você mal ou nunca fará uma estimativa de um modelo linear simples. Na maioria das situações, as tarefas de regressão são realizadas em vários estimadores.
Regressão linear múltipla
Aplicações mais práticas de análise de regressão empregam modelos que são mais complexos do que o modelo de linha reta simples. O modelo probabilístico que inclui mais de uma variável independente é chamado de modelos de regressão múltipla . A forma geral deste modelo é:
Na notação de matriz, você pode reescrever o modelo:
A variável dependente y agora é uma função de k variáveis independentes. O valor do coeficiente .
Apresentamos brevemente a suposição que fizemos sobre o erro aleatório do OLS:
- Média igual a 0
- Variância igual a
- Distribuição normal
- Erros aleatórios são independentes (em um sentido probabilístico)
Você precisa resolver o vetor de coeficientes de regressão que minimizam a soma dos erros quadrados entre os valores de y previstos e reais.
A solução de forma fechada é:
com:
- indica a transposição da matriz X
- indica a matriz invertível
Usamos o conjunto de dados mtcars. Você já está familiarizado com o conjunto de dados. Nosso objetivo é prever a milha por galão em um conjunto de recursos.
Variáveis contínuas
Por enquanto, você só usará as variáveis contínuas e deixará de lado os recursos categóricos. A variável am é uma variável binária que assume o valor 1 se a transmissão for manual e 0 para carros automáticos; vs também é uma variável binária.
library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)
Resultado:
## Observations: 32## Variables: 6## $ mpg21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp 160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat 3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt 2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec 16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2…
Você pode usar a função lm () para calcular os parâmetros. A sintaxe básica desta função é:
lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset
Lembre-se de que uma equação tem o seguinte formato
em R
- O símbolo = é substituído por ~
- Cada x é substituído pelo nome da variável
- Se você quiser descartar a constante, adicione -1 no final da fórmula
Exemplo:
Você deseja estimar o peso dos indivíduos com base em sua altura e receita. A equação é
A equação em R é escrita da seguinte forma:
y ~ X1 + X2 +… + Xn # Com interceptação
Então, para nosso exemplo:
- Peso ~ altura + receita
Seu objetivo é estimar a milha por galão com base em um conjunto de variáveis. A equação a ser estimada é:
Você estimará sua primeira regressão linear e armazenará o resultado no objeto de ajuste.
model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit
Explicação do código
- modelo <- mpg ~ . disp + hp + drat + wt: Armazene o modelo para estimar
- lm (modelo, df): Estime o modelo com o quadro de dados df
#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015
A saída não fornece informações suficientes sobre a qualidade do ajuste. Você pode acessar mais detalhes, como a significância dos coeficientes, o grau de liberdade e a forma dos resíduos com a função summary ().
summary(fit)
Resultado:
## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10
Inferência do resultado da tabela acima
- A tabela acima prova que existe uma forte relação negativa entre peso e quilometragem e relação positiva com drat.
- Apenas a variável wt tem um impacto estatístico no mpg. Lembre-se, para testar uma hipótese em estatística, usamos:
- H0: Sem impacto estatístico
- H3: O preditor tem um impacto significativo sobre y
- Se o valor de p for inferior a 0,05, indica que a variável é estatisticamente significativa
- R-quadrado ajustado: Variância explicada pelo modelo. Em seu modelo, o modelo explicou 82 por cento da variância de y. R ao quadrado está sempre entre 0 e 1. Quanto maior, melhor
Você pode executar o teste ANOVA para estimar o efeito de cada recurso nas variações com a função anova ().
anova(fit)
Resultado:
## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Uma maneira mais convencional de estimar o desempenho do modelo é exibir o residual em relação a diferentes medidas.
Você pode usar a função plot () para mostrar quatro gráficos:
- Resíduos vs valores ajustados
- Gráfico QQ normal: Quartil teórico vs resíduos padronizados
- Escala-Localização: valores ajustados vs raízes quadradas dos resíduos padronizados
- Resíduos vs Alavancagem: Alavancagem vs resíduos padronizados
Você adiciona o código par (mfrow = c (2,2)) antes do gráfico (ajuste). Se você não adicionar esta linha de código, R solicitará que você pressione o comando enter para exibir o próximo gráfico.
par(mfrow=(2,2))
Explicação do código
- (mfrow = c (2,2)): retorna uma janela com os quatro gráficos lado a lado.
- Os 2 primeiros somam o número de linhas
- O segundo 2 adiciona o número de colunas.
- Se você escrever (mfrow = c (3,2)): você criará uma janela de 3 linhas e 2 colunas
plot(fit)
Resultado:
A fórmula lm () retorna uma lista contendo muitas informações úteis. Você pode acessá-los com o objeto de ajuste que criou, seguido pelo sinal $ e as informações que deseja extrair.
- coeficientes: `fit $ coeficientes`
- residuais: `fit $ residuais`
- valor ajustado: `fit $ fixed.values`
Regressão de fatores
Na última estimativa do modelo, você faz a regressão do mpg apenas em variáveis contínuas. É simples adicionar variáveis de fator ao modelo. Você adiciona a variável am ao seu modelo. É importante ter certeza de que a variável é um nível de fator e não contínua.
df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))
Resultado:
#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124
R usa o primeiro nível de fator como um grupo de base. Você precisa comparar os coeficientes do outro grupo com o grupo de base.
Regressão Stepwise
A última parte deste tutorial trata do algoritmo de regressão stepwise . O objetivo deste algoritmo é adicionar e remover candidatos potenciais nos modelos e manter aqueles que têm um impacto significativo na variável dependente. Este algoritmo é significativo quando o conjunto de dados contém uma grande lista de preditores. Você não precisa adicionar e remover manualmente as variáveis independentes. A regressão stepwise é construída para selecionar os melhores candidatos para se ajustar ao modelo.
Vamos ver em ação como funciona. Você usa o conjunto de dados mtcars com as variáveis contínuas apenas para ilustração pedagógica. Antes de começar a análise, é bom estabelecer variações entre os dados com uma matriz de correlação. A biblioteca GGally é uma extensão do ggplot2.
A biblioteca inclui funções diferentes para mostrar estatísticas resumidas, como correlação e distribuição de todas as variáveis em uma matriz. Usaremos a função ggscatmat, mas você pode consultar a vinheta para obter mais informações sobre a biblioteca GGally.
A sintaxe básica para ggscatmat () é:
ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula
Você exibe a correlação para todas as suas variáveis e decide qual será a melhor candidata para a primeira etapa da regressão stepwise. Existem algumas correlações fortes entre suas variáveis e a variável dependente, mpg.
library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))
Resultado:
Regressão Stepwise
A seleção de variáveis é uma parte importante para ajustar um modelo. A regressão stepwise realizará o processo de busca automaticamente. Para estimar quantas opções possíveis existem no conjunto de dados, você calcula com k é o número de preditores. A quantidade de possibilidades aumenta com o número de variáveis independentes. É por isso que você precisa ter uma busca automática.
Você precisa instalar o pacote olsrr do CRAN. O pacote ainda não está disponível no Anaconda. Portanto, você o instala diretamente da linha de comando:
install.packages("olsrr")
Você pode representar graficamente todos os subconjuntos de possibilidades com os critérios de ajuste (ou seja, R-quadrado, R-quadrado ajustado, critérios Bayesianos). O modelo com os critérios AIC mais baixos será o modelo final.
library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)
Explicação do código
- mpg ~ .: Construa o modelo para estimar
- lm (modelo, df): Execute o modelo OLS
- ols_all_subset (fit): Construa os gráficos com as informações estatísticas relevantes
- plot (teste): Plote os gráficos
Resultado:
Os modelos de regressão linear usam o teste t para estimar o impacto estatístico de uma variável independente na variável dependente. Os pesquisadores definem o limite máximo em 10 por cento, com valores mais baixos indica um vínculo estatístico mais forte. A estratégia da regressão stepwise é construída em torno deste teste para adicionar e remover candidatos potenciais. O algoritmo funciona da seguinte maneira:
- Etapa 1: retroceda cada preditor em y separadamente. Ou seja, regredir x_1 em y, x_2 em y para x_n. Armazene o valor p e mantenha o regressor com um valor p inferior a um limite definido (0,1 por padrão). Os preditores com significância inferior ao limite serão adicionados ao modelo final. Se nenhuma variável tiver um valor p inferior ao limite de entrada, o algoritmo será interrompido e você terá seu modelo final apenas com uma constante.
- Etapa 2: use o preditor com o valor p mais baixo e adicione separadamente uma variável. Você regredirá uma constante, o melhor preditor da etapa um e uma terceira variável. Você adiciona ao modelo passo a passo os novos preditores com um valor inferior ao limite de entrada. Se nenhuma variável tiver um valor p inferior a 0,1, o algoritmo será interrompido e você terá seu modelo final com apenas um preditor. Você regredir o modelo stepwise para verificar a significância dos melhores preditores da etapa 1. Se for mais alto do que o limite de remoção, você o mantém no modelo passo a passo. Caso contrário, você o exclui.
- Etapa 3: você replica a etapa 2 no novo melhor modelo passo a passo. O algoritmo adiciona preditores ao modelo stepwise com base nos valores de entrada e exclui o preditor do modelo stepwise se ele não atender ao limite de exclusão.
- O algoritmo continua até que nenhuma variável possa ser adicionada ou excluída.
Você pode executar o algoritmo com a função ols_stepwise () do pacote olsrr.
ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)arguments:
-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step
Antes disso, mostramos as etapas do algoritmo. Abaixo está uma tabela com as variáveis dependentes e independentes:
Variável dependente |
Variáveis independentes |
---|---|
mpg |
disp |
hp |
|
drat |
|
em peso |
|
qsec |
Começar
Para começar, o algoritmo começa executando o modelo em cada variável independente separadamente. A tabela mostra o valor p para cada modelo.
## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199
Para entrar no modelo, o algoritmo mantém a variável com o menor valor p. A partir da saída acima, é wt
Passo 1
Na primeira etapa, o algoritmo executa mpg em wt e as outras variáveis independentemente.
## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03
Cada variável é um candidato potencial para entrar no modelo final. No entanto, o algoritmo mantém apenas a variável com o valor p inferior. Acontece que hp tem um valor p ligeiramente mais baixo do que qsec. Portanto, hp entra no modelo final
Passo 2
O algoritmo repete a primeira etapa, mas desta vez com duas variáveis independentes no modelo final.
## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01
Nenhuma das variáveis que entraram no modelo final tem um valor de p suficientemente baixo. O algoritmo pára aqui; temos o modelo final:
#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12
Você pode usar a função ols_stepwise () para comparar os resultados.
stp_s <-ols_stepwise(fit, details=TRUE)
Resultado:
O algoritmo encontra uma solução após 2 etapas e retorna a mesma saída que tínhamos antes.
No final, você pode dizer que os modelos são explicados por duas variáveis e um intercepto. A milha por galão está negativamente correlacionada com a potência bruta e o peso
## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.
Aprendizado de máquina
O aprendizado de máquina está se espalhando entre os cientistas de dados e é implantado em centenas de produtos que você usa diariamente. Um dos primeiros aplicativos de ML foi o filtro de spam .
A seguir estão outras aplicações de Aprendizado de Máquina-
- Identificação de mensagens de spam indesejadas no e-mail
- Segmentação do comportamento do cliente para publicidade direcionada
- Redução de transações fraudulentas com cartão de crédito
- Otimização do uso de energia em edifícios residenciais e comerciais
- Reconhecimento facial
Aprendizagem supervisionada
No aprendizado supervisionado , os dados de treinamento que você fornece ao algoritmo incluem um rótulo.
A classificação é provavelmente a técnica de aprendizagem supervisionada mais utilizada. Uma das primeiras tarefas de classificação que os pesquisadores enfrentaram foi o filtro de spam. O objetivo do aprendizado é prever se um email é classificado como spam ou ham (email bom). A máquina, após a etapa de treinamento, consegue detectar a classe do e-mail.
As regressões são comumente usadas no campo do aprendizado de máquina para prever o valor contínuo. A tarefa de regressão pode prever o valor de uma variável dependente com base em um conjunto de variáveis independentes (também chamados de preditores ou regressores). Por exemplo, as regressões lineares podem prever o preço de uma ação, previsão do tempo, vendas e assim por diante.
Aqui está a lista de alguns algoritmos fundamentais de aprendizagem supervisionada.
- Regressão linear
- Regressão logística
- Vizinhos Mais Próximos
- Máquina de vetores de suporte (SVM)
- Árvores de decisão e floresta aleatória
- Redes neurais
Aprendizagem não supervisionada
Na aprendizagem não supervisionada , os dados de treinamento não são rotulados. O sistema tenta aprender sem referência. Abaixo está uma lista de algoritmos de aprendizagem não supervisionados.
- K-mean
- Análise Hierárquica de Cluster
- Maximização da expectativa
- Visualização e redução de dimensionalidade
- Análise do componente principal
- Kernel PCA
- Incorporação Localmente Linear
Resumo
A regressão de mínimos quadrados comuns pode ser resumida na tabela abaixo:
Biblioteca |
Objetivo |
Função |
Argumentos |
---|---|---|---|
base |
Calcule uma regressão linear |
lm () |
fórmula, dados |
base |
Resumir modelo |
resumir() |
ajuste |
base |
Coeficientes de extração |
lm () $ coeficiente | |
base |
Extrair resíduos |
lm () $ residuais | |
base |
Extrair valor ajustado |
lm () $ fit.values | |
olsrr |
Executar regressão stepwise |
ols_stepwise () |
ajuste, pent = 0,1, prem = 0,3, detalhes = FALSO |
Nota : Lembre-se de transformar a variável categórica em fator antes de ajustar o modelo.