R Regressão Simples, Linear Múltipla e Stepwise (com exemplo)

Neste tutorial, você aprenderá

Regressão Linear Simples
Regressão linear múltipla
Variáveis contínuas
Regressão de fatores
Regressão Stepwise
Aprendizado de máquina
Aprendizagem supervisionada
Aprendizagem não supervisionada

Regressão Linear Simples

A regressão linear responde a uma pergunta simples: você pode medir uma relação exata entre uma variável de destino e um conjunto de preditores?

O mais simples dos modelos probabilísticos é o modelo de linha reta:

Onde

y = variável dependente
x = variável independente
= componente de erro aleatório
= interceptar
= Coeficiente de x

Considere o seguinte gráfico:

A equação é é a interceptação. Se x for igual a 0, y será igual à interceptação, 4,77. é a inclinação da linha. Ele informa em qual proporção y varia quando x varia.

Para estimar os valores ótimos de , você usa um método chamado Ordinary Least Squares (OLS) . Este método tenta encontrar os parâmetros que minimizam a soma dos erros quadráticos, ou seja, a distância vertical entre os valores y previstos e os valores y reais. A diferença é conhecida como termo de erro .

Antes de estimar o modelo, você pode determinar se uma relação linear entre y e x é plausível traçando um gráfico de dispersão.

Gráfico de dispersão

Usaremos um conjunto de dados muito simples para explicar o conceito de regressão linear simples. Vamos importar as alturas e pesos médios para mulheres americanas. O conjunto de dados contém 15 observações. Você deseja medir se as alturas estão positivamente correlacionadas com os pesos.

library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()

Resultado:

O gráfico de dispersão sugere uma tendência geral para y aumentar à medida que x aumenta. Na próxima etapa, você medirá quanto aumenta para cada adicional.

Estimativas de mínimos quadrados

Em uma regressão OLS simples, o cálculo de é direto. O objetivo não é mostrar a derivação neste tutorial. Você só vai escrever a fórmula.

Você deseja estimar:

O objetivo da regressão OLS é minimizar a seguinte equação:

Onde

é o valor previsto.

A solução para

Observe que significa o valor médio de x

A solução para

Em R, você pode usar as funções cov () e var () para estimar

beta <- cov(df$height, df$weight) / var (df$height)beta

Resultado:

##[1] 3.45

alpha <- mean(df$weight) - beta * mean(df$height)alpha

Resultado:

## [1] -87.51667

O coeficiente beta implica que para cada altura adicional, o peso aumenta em 3,45.

Estimar equações lineares simples manualmente não é o ideal. R fornece uma função adequada para estimar esses parâmetros. Você verá esta função em breve. Antes disso, apresentaremos como calcular manualmente um modelo de regressão linear simples. Em sua jornada como cientista de dados, você mal ou nunca fará uma estimativa de um modelo linear simples. Na maioria das situações, as tarefas de regressão são realizadas em vários estimadores.

Regressão linear múltipla

Aplicações mais práticas de análise de regressão empregam modelos que são mais complexos do que o modelo de linha reta simples. O modelo probabilístico que inclui mais de uma variável independente é chamado de modelos de regressão múltipla . A forma geral deste modelo é:

Na notação de matriz, você pode reescrever o modelo:

A variável dependente y agora é uma função de k variáveis independentes. O valor do coeficiente .

Apresentamos brevemente a suposição que fizemos sobre o erro aleatório do OLS:

Média igual a 0
Variância igual a
Distribuição normal
Erros aleatórios são independentes (em um sentido probabilístico)

Você precisa resolver o vetor de coeficientes de regressão que minimizam a soma dos erros quadrados entre os valores de y previstos e reais.

A solução de forma fechada é:

com:

indica a transposição da matriz X
indica a matriz invertível

Usamos o conjunto de dados mtcars. Você já está familiarizado com o conjunto de dados. Nosso objetivo é prever a milha por galão em um conjunto de recursos.

Variáveis contínuas

Por enquanto, você só usará as variáveis contínuas e deixará de lado os recursos categóricos. A variável am é uma variável binária que assume o valor 1 se a transmissão for manual e 0 para carros automáticos; vs também é uma variável binária.

library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)

Resultado:

## Observations: 32## Variables: 6## $ mpg  21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp  160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp  110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat  3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt  2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec  16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2…

Você pode usar a função lm () para calcular os parâmetros. A sintaxe básica desta função é:

lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset

Lembre-se de que uma equação tem o seguinte formato

em R

O símbolo = é substituído por ~
Cada x é substituído pelo nome da variável
Se você quiser descartar a constante, adicione -1 no final da fórmula

Exemplo:

Você deseja estimar o peso dos indivíduos com base em sua altura e receita. A equação é

A equação em R é escrita da seguinte forma:

y ~ X1 + X2 +… + Xn # Com interceptação

Então, para nosso exemplo:

Peso ~ altura + receita

Seu objetivo é estimar a milha por galão com base em um conjunto de variáveis. A equação a ser estimada é:

Você estimará sua primeira regressão linear e armazenará o resultado no objeto de ajuste.

model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit

Explicação do código

modelo <- mpg ~ . disp + hp + drat + wt: Armazene o modelo para estimar
lm (modelo, df): Estime o modelo com o quadro de dados df

#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015

A saída não fornece informações suficientes sobre a qualidade do ajuste. Você pode acessar mais detalhes, como a significância dos coeficientes, o grau de liberdade e a forma dos resíduos com a função summary ().

summary(fit)

Resultado:

## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10

Inferência do resultado da tabela acima

A tabela acima prova que existe uma forte relação negativa entre peso e quilometragem e relação positiva com drat.
Apenas a variável wt tem um impacto estatístico no mpg. Lembre-se, para testar uma hipótese em estatística, usamos:
- H0: Sem impacto estatístico
- H3: O preditor tem um impacto significativo sobre y
- Se o valor de p for inferior a 0,05, indica que a variável é estatisticamente significativa
R-quadrado ajustado: Variância explicada pelo modelo. Em seu modelo, o modelo explicou 82 por cento da variância de y. R ao quadrado está sempre entre 0 e 1. Quanto maior, melhor

Você pode executar o teste ANOVA para estimar o efeito de cada recurso nas variações com a função anova ().

anova(fit)

Resultado:

## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Uma maneira mais convencional de estimar o desempenho do modelo é exibir o residual em relação a diferentes medidas.

Você pode usar a função plot () para mostrar quatro gráficos:

- Resíduos vs valores ajustados

- Gráfico QQ normal: Quartil teórico vs resíduos padronizados

- Escala-Localização: valores ajustados vs raízes quadradas dos resíduos padronizados

- Resíduos vs Alavancagem: Alavancagem vs resíduos padronizados

Você adiciona o código par (mfrow = c (2,2)) antes do gráfico (ajuste). Se você não adicionar esta linha de código, R solicitará que você pressione o comando enter para exibir o próximo gráfico.

par(mfrow=(2,2))

Explicação do código

(mfrow = c (2,2)): retorna uma janela com os quatro gráficos lado a lado.
Os 2 primeiros somam o número de linhas
O segundo 2 adiciona o número de colunas.
Se você escrever (mfrow = c (3,2)): você criará uma janela de 3 linhas e 2 colunas

plot(fit)

Resultado:

A fórmula lm () retorna uma lista contendo muitas informações úteis. Você pode acessá-los com o objeto de ajuste que criou, seguido pelo sinal $ e as informações que deseja extrair.

- coeficientes: `fit $ coeficientes`

- residuais: `fit $ residuais`

- valor ajustado: `fit $ fixed.values`

Regressão de fatores

Na última estimativa do modelo, você faz a regressão do mpg apenas em variáveis contínuas. É simples adicionar variáveis de fator ao modelo. Você adiciona a variável am ao seu modelo. É importante ter certeza de que a variável é um nível de fator e não contínua.

df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))

Resultado:

#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124

R usa o primeiro nível de fator como um grupo de base. Você precisa comparar os coeficientes do outro grupo com o grupo de base.

Regressão Stepwise

A última parte deste tutorial trata do algoritmo de regressão stepwise . O objetivo deste algoritmo é adicionar e remover candidatos potenciais nos modelos e manter aqueles que têm um impacto significativo na variável dependente. Este algoritmo é significativo quando o conjunto de dados contém uma grande lista de preditores. Você não precisa adicionar e remover manualmente as variáveis independentes. A regressão stepwise é construída para selecionar os melhores candidatos para se ajustar ao modelo.

Vamos ver em ação como funciona. Você usa o conjunto de dados mtcars com as variáveis contínuas apenas para ilustração pedagógica. Antes de começar a análise, é bom estabelecer variações entre os dados com uma matriz de correlação. A biblioteca GGally é uma extensão do ggplot2.

A biblioteca inclui funções diferentes para mostrar estatísticas resumidas, como correlação e distribuição de todas as variáveis em uma matriz. Usaremos a função ggscatmat, mas você pode consultar a vinheta para obter mais informações sobre a biblioteca GGally.

A sintaxe básica para ggscatmat () é:

ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula

Você exibe a correlação para todas as suas variáveis e decide qual será a melhor candidata para a primeira etapa da regressão stepwise. Existem algumas correlações fortes entre suas variáveis e a variável dependente, mpg.

library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))

Resultado:

Regressão Stepwise

A seleção de variáveis é uma parte importante para ajustar um modelo. A regressão stepwise realizará o processo de busca automaticamente. Para estimar quantas opções possíveis existem no conjunto de dados, você calcula com k é o número de preditores. A quantidade de possibilidades aumenta com o número de variáveis independentes. É por isso que você precisa ter uma busca automática.

Você precisa instalar o pacote olsrr do CRAN. O pacote ainda não está disponível no Anaconda. Portanto, você o instala diretamente da linha de comando:

install.packages("olsrr")

Você pode representar graficamente todos os subconjuntos de possibilidades com os critérios de ajuste (ou seja, R-quadrado, R-quadrado ajustado, critérios Bayesianos). O modelo com os critérios AIC mais baixos será o modelo final.

library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)

Explicação do código

mpg ~ .: Construa o modelo para estimar
lm (modelo, df): Execute o modelo OLS
ols_all_subset (fit): Construa os gráficos com as informações estatísticas relevantes
plot (teste): Plote os gráficos

Resultado:

Os modelos de regressão linear usam o teste t para estimar o impacto estatístico de uma variável independente na variável dependente. Os pesquisadores definem o limite máximo em 10 por cento, com valores mais baixos indica um vínculo estatístico mais forte. A estratégia da regressão stepwise é construída em torno deste teste para adicionar e remover candidatos potenciais. O algoritmo funciona da seguinte maneira:

Etapa 1: retroceda cada preditor em y separadamente. Ou seja, regredir x_1 em y, x_2 em y para x_n. Armazene o valor p e mantenha o regressor com um valor p inferior a um limite definido (0,1 por padrão). Os preditores com significância inferior ao limite serão adicionados ao modelo final. Se nenhuma variável tiver um valor p inferior ao limite de entrada, o algoritmo será interrompido e você terá seu modelo final apenas com uma constante.
Etapa 2: use o preditor com o valor p mais baixo e adicione separadamente uma variável. Você regredirá uma constante, o melhor preditor da etapa um e uma terceira variável. Você adiciona ao modelo passo a passo os novos preditores com um valor inferior ao limite de entrada. Se nenhuma variável tiver um valor p inferior a 0,1, o algoritmo será interrompido e você terá seu modelo final com apenas um preditor. Você regredir o modelo stepwise para verificar a significância dos melhores preditores da etapa 1. Se for mais alto do que o limite de remoção, você o mantém no modelo passo a passo. Caso contrário, você o exclui.
Etapa 3: você replica a etapa 2 no novo melhor modelo passo a passo. O algoritmo adiciona preditores ao modelo stepwise com base nos valores de entrada e exclui o preditor do modelo stepwise se ele não atender ao limite de exclusão.
O algoritmo continua até que nenhuma variável possa ser adicionada ou excluída.

Você pode executar o algoritmo com a função ols_stepwise () do pacote olsrr.

ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)

arguments:

-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step

Antes disso, mostramos as etapas do algoritmo. Abaixo está uma tabela com as variáveis dependentes e independentes:

Variável dependente	Variáveis independentes
mpg	disp
	hp
	drat
	em peso
	qsec

Começar

Para começar, o algoritmo começa executando o modelo em cada variável independente separadamente. A tabela mostra o valor p para cada modelo.

## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199

Para entrar no modelo, o algoritmo mantém a variável com o menor valor p. A partir da saída acima, é wt

Passo 1

Na primeira etapa, o algoritmo executa mpg em wt e as outras variáveis independentemente.

## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03

Cada variável é um candidato potencial para entrar no modelo final. No entanto, o algoritmo mantém apenas a variável com o valor p inferior. Acontece que hp tem um valor p ligeiramente mais baixo do que qsec. Portanto, hp entra no modelo final

Passo 2

O algoritmo repete a primeira etapa, mas desta vez com duas variáveis independentes no modelo final.

## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01

Nenhuma das variáveis que entraram no modelo final tem um valor de p suficientemente baixo. O algoritmo pára aqui; temos o modelo final:

#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12

Você pode usar a função ols_stepwise () para comparar os resultados.

stp_s <-ols_stepwise(fit, details=TRUE)

Resultado:

O algoritmo encontra uma solução após 2 etapas e retorna a mesma saída que tínhamos antes.

No final, você pode dizer que os modelos são explicados por duas variáveis e um intercepto. A milha por galão está negativamente correlacionada com a potência bruta e o peso

## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.

Aprendizado de máquina

O aprendizado de máquina está se espalhando entre os cientistas de dados e é implantado em centenas de produtos que você usa diariamente. Um dos primeiros aplicativos de ML foi o filtro de spam .

A seguir estão outras aplicações de Aprendizado de Máquina-

Identificação de mensagens de spam indesejadas no e-mail
Segmentação do comportamento do cliente para publicidade direcionada
Redução de transações fraudulentas com cartão de crédito
Otimização do uso de energia em edifícios residenciais e comerciais
Reconhecimento facial

Aprendizagem supervisionada

No aprendizado supervisionado , os dados de treinamento que você fornece ao algoritmo incluem um rótulo.

A classificação é provavelmente a técnica de aprendizagem supervisionada mais utilizada. Uma das primeiras tarefas de classificação que os pesquisadores enfrentaram foi o filtro de spam. O objetivo do aprendizado é prever se um email é classificado como spam ou ham (email bom). A máquina, após a etapa de treinamento, consegue detectar a classe do e-mail.

As regressões são comumente usadas no campo do aprendizado de máquina para prever o valor contínuo. A tarefa de regressão pode prever o valor de uma variável dependente com base em um conjunto de variáveis independentes (também chamados de preditores ou regressores). Por exemplo, as regressões lineares podem prever o preço de uma ação, previsão do tempo, vendas e assim por diante.

Aqui está a lista de alguns algoritmos fundamentais de aprendizagem supervisionada.

Regressão linear
Regressão logística
Vizinhos Mais Próximos
Máquina de vetores de suporte (SVM)
Árvores de decisão e floresta aleatória
Redes neurais

Aprendizagem não supervisionada

Na aprendizagem não supervisionada , os dados de treinamento não são rotulados. O sistema tenta aprender sem referência. Abaixo está uma lista de algoritmos de aprendizagem não supervisionados.

K-mean
Análise Hierárquica de Cluster
Maximização da expectativa
Visualização e redução de dimensionalidade
Análise do componente principal
Kernel PCA
Incorporação Localmente Linear

Resumo

A regressão de mínimos quadrados comuns pode ser resumida na tabela abaixo:

Biblioteca	Objetivo	Função	Argumentos
base	Calcule uma regressão linear	lm ()	fórmula, dados
base	Resumir modelo	resumir()	ajuste
base	Coeficientes de extração	lm () $ coeficiente
base	Extrair resíduos	lm () $ residuais
base	Extrair valor ajustado	lm () $ fit.values
olsrr	Executar regressão stepwise	ols_stepwise ()	ajuste, pent = 0,1, prem = 0,3, detalhes = FALSO

Nota : Lembre-se de transformar a variável categórica em fator antes de ajustar o modelo.

R Regressão Simples, Linear Múltipla e Stepwise (com exemplo)

Índice:

Regressão Linear Simples

Gráfico de dispersão

Estimativas de mínimos quadrados

Regressão linear múltipla

Variáveis contínuas

Regressão de fatores

Regressão Stepwise

Regressão Stepwise

Aprendizado de máquina

Aprendizagem supervisionada

Aprendizagem não supervisionada

Resumo

Fix Min / Max-Width para navegadores sem suporte nativo - CSS-Tricks

Corrigir o corte da lista suspensa no IE 7 - CSS-Tricks

Forçar um Iframe a recarregar - CSS-Tricks

Fade Image Em Outra Imagem - CSS-Tricks

Corrigindo o índice z do IE - CSS-Tricks

10 Melhor Single & Suportes para suporte de mesa com braço de monitor duplo em 2021

Linux vs Windows: Qual é a diferença?

Tutorial de linha de comando do Linux: manipular o terminal com comandos de CD

Como fazer o download & Instale o Linux (Ubuntu) no PC com Windows

Lista de variáveis de ambiente em Linux / Unix

26 Melhor (verdadeiramente GRATUITO) VPN Android em 2021

Mais de 10 MELHORES aplicativos de raiz para Android (atualização de 2021)

13 MELHORES livros de desenvolvimento de aplicativos Android (atualização de 2021)

21 BEST App Call Recorder (atualização de 2021)

25 MELHORES aplicativos de criação de colagem de fotos em 2021

R Regressão Simples, Linear Múltipla e Stepwise (com exemplo)

Índice:

Regressão Linear Simples

Gráfico de dispersão

Estimativas de mínimos quadrados

Regressão linear múltipla

Variáveis ​​contínuas

Regressão de fatores

Regressão Stepwise

Regressão Stepwise

Aprendizado de máquina

Aprendizagem supervisionada

Aprendizagem não supervisionada

Resumo

Variáveis contínuas