O que é o fator em R?
Fator em R é uma variável usada para categorizar e armazenar os dados, tendo um número limitado de valores diferentes. Ele armazena os dados como um vetor de valores inteiros. O fator em R também é conhecido como uma variável categórica que armazena valores de dados inteiros e de string como níveis. Factor é usado principalmente em Modelagem Estatística e análise exploratória de dados com R.
Em um conjunto de dados, podemos distinguir dois tipos de variáveis: categóricas e contínuas .
- Em estatísticas descritivas para variáveis categóricas em R, o valor é limitado e geralmente baseado em um determinado grupo finito. Por exemplo, uma variável categórica em R pode ser países, ano, gênero, ocupação.
- Uma variável contínua, no entanto, pode assumir qualquer valor, de inteiro a decimal. Por exemplo, podemos ter a receita, o preço de uma ação, etc ...
Variáveis categóricas
Variáveis categóricas em R são armazenadas em um fator. Vamos verificar o código a seguir para converter uma variável de caractere em uma variável de fator em R. Os caracteres não são suportados no algoritmo de aprendizado de máquina e a única maneira é converter uma string em um inteiro.
Sintaxe
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Argumentos:
- x : Um vetor de dados categóricos em R. Precisa ser uma string ou inteiro, não decimal.
- Níveis : Um vetor de valores possíveis tomados por x. Este argumento é opcional. O valor padrão é a lista única de itens do vetor x.
- Rótulos : adicione um rótulo aos dados categóricos x em R. Por exemplo, 1 pode ser o rótulo `masculino`, enquanto 0, o rótulo` feminino`.
- ordenado : Determine se os níveis devem ser ordenados em dados categóricos em R.
Exemplo:
Vamos criar um quadro de dados de fator.
# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)
Resultado:
## [1] "character"## [1] "factor"
É importante transformar uma string em variável de fator em R quando executamos uma tarefa de aprendizado de máquina.
Uma variável categórica em R pode ser dividida em variável categórica nominal e variável categórica ordinal .
Variável Categórica Nominal
Uma variável categórica possui vários valores, mas a ordem não importa. Por exemplo, masculino ou feminino. Variáveis categóricas em R não têm ordenação.
# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color
Resultado:
## [1] blue red green white black yellow## Levels: black blue green red white yellow
A partir de factor_color, não podemos dizer nenhuma ordem.
Variável Categórica Ordinal
Variáveis categóricas ordinais têm uma ordem natural. Podemos especificar a ordem, da mais baixa para a mais alta com ordem = VERDADEIRO e da mais alta para a mais baixa com ordem = FALSO.
Exemplo:
Podemos usar o resumo para contar os valores de cada variável de fator em R.
# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day
Resultado:
## [1] evening morning afternoon middaymidnight evening
Exemplo:
## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)
Resultado:
## morning midday afternoon evening midnight## 1 1 1 2 1
R ordenou o nível de 'manhã' a 'meia-noite' conforme especificado nos parênteses dos níveis.
Variáveis Contínuas
Variáveis de classe contínua são o valor padrão em R. Elas são armazenadas como numéricas ou inteiras. Podemos ver no conjunto de dados abaixo. mtcars é um conjunto de dados integrado. Reúne informações sobre diferentes tipos de automóveis. Podemos importá-lo usando mtcars e verificar a classe da variável mpg, milha por galão. Ele retorna um valor numérico, indicando uma variável contínua.
dataset <- mtcarsclass(dataset$mpg)
Resultado
## [1] "numeric"