Fator em R: Variável categórica & Variáveis ​​Contínuas

Índice:

Anonim

O que é o fator em R?

Fator em R é uma variável usada para categorizar e armazenar os dados, tendo um número limitado de valores diferentes. Ele armazena os dados como um vetor de valores inteiros. O fator em R também é conhecido como uma variável categórica que armazena valores de dados inteiros e de string como níveis. Factor é usado principalmente em Modelagem Estatística e análise exploratória de dados com R.

Em um conjunto de dados, podemos distinguir dois tipos de variáveis: categóricas e contínuas .

  • Em estatísticas descritivas para variáveis ​​categóricas em R, o valor é limitado e geralmente baseado em um determinado grupo finito. Por exemplo, uma variável categórica em R pode ser países, ano, gênero, ocupação.
  • Uma variável contínua, no entanto, pode assumir qualquer valor, de inteiro a decimal. Por exemplo, podemos ter a receita, o preço de uma ação, etc ...

Variáveis ​​categóricas

Variáveis ​​categóricas em R são armazenadas em um fator. Vamos verificar o código a seguir para converter uma variável de caractere em uma variável de fator em R. Os caracteres não são suportados no algoritmo de aprendizado de máquina e a única maneira é converter uma string em um inteiro.

Sintaxe

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumentos:

  • x : Um vetor de dados categóricos em R. Precisa ser uma string ou inteiro, não decimal.
  • Níveis : Um vetor de valores possíveis tomados por x. Este argumento é opcional. O valor padrão é a lista única de itens do vetor x.
  • Rótulos : adicione um rótulo aos dados categóricos x em R. Por exemplo, 1 pode ser o rótulo `masculino`, enquanto 0, o rótulo` feminino`.
  • ordenado : Determine se os níveis devem ser ordenados em dados categóricos em R.

Exemplo:

Vamos criar um quadro de dados de fator.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Resultado:

## [1] "character"## [1] "factor"

É importante transformar uma string em variável de fator em R quando executamos uma tarefa de aprendizado de máquina.

Uma variável categórica em R pode ser dividida em variável categórica nominal e variável categórica ordinal .

Variável Categórica Nominal

Uma variável categórica possui vários valores, mas a ordem não importa. Por exemplo, masculino ou feminino. Variáveis ​​categóricas em R não têm ordenação.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Resultado:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

A partir de factor_color, não podemos dizer nenhuma ordem.

Variável Categórica Ordinal

Variáveis ​​categóricas ordinais têm uma ordem natural. Podemos especificar a ordem, da mais baixa para a mais alta com ordem = VERDADEIRO e da mais alta para a mais baixa com ordem = FALSO.

Exemplo:

Podemos usar o resumo para contar os valores de cada variável de fator em R.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Resultado:

## [1] evening morning afternoon middaymidnight evening 

Exemplo:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Resultado:

## morning midday afternoon evening midnight## 1 1 1 2 1

R ordenou o nível de 'manhã' a 'meia-noite' conforme especificado nos parênteses dos níveis.

Variáveis ​​Contínuas

Variáveis ​​de classe contínua são o valor padrão em R. Elas são armazenadas como numéricas ou inteiras. Podemos ver no conjunto de dados abaixo. mtcars é um conjunto de dados integrado. Reúne informações sobre diferentes tipos de automóveis. Podemos importá-lo usando mtcars e verificar a classe da variável mpg, milha por galão. Ele retorna um valor numérico, indicando uma variável contínua.

dataset <- mtcarsclass(dataset$mpg)

Resultado

## [1] "numeric"