获取 R 中 DataFrame 列的所有因子级别
R 中的数据框列可以根据其因子列进行分解。数据框因子列由因子级别组成。因子用于表示分类数据。每个因子由一个级别表示,按照编码因子级别向量中字符或字符串出现的字典顺序计算。在本文中,我们将讨论如何在 R 中获取数据框列的所有因子级别。
R 中的安全帽包负责提供预处理、预测和验证输入的功能。它用于构建建模包。
句法:
install.packages(“hardhat”)
此包中的 get_levels() 方法用于从指定数据框中的任何因子列中提取级别。这种方法的主要优点是从训练集中的预测变量中提取原始因子水平,在这种情况下是数据框。当且仅当数据类型兼容时,它仅将 R 中的数据框或 data.table 作为参数,并以向量的形式返回映射到相应因子级别的不同列。
句法:
get_levels(data_frame)
列根据因子水平进行调整。但是,任何重复条目都将被删除,因为它们处于相同的因子水平。
示例 1:
R
# getting required libraries
library("hardhat")
# declaring data frame
data_frame <- data.frame(
col1 = letters[4:6],
col3 = c("geeks","for","geeks"))
print ("Original DataFrame")
print (data_frame)
print ("Factors")
get_levels(data_frame)
R
# getting required libraries
library("hardhat")
# declaring data frame
data_frame <- data.frame(col1 = factor(c(2,4,6)),
col2 = FALSE, col3 = LETTERS[1:3])
print ("Original DataFrame")
print (data_frame)
print ("Factors")
get_levels(data_frame)
输出
[1] “Original DataFrame”
col1 col3
1 d geeks
2 e for
3 f geeks
[1] “Factors”
$col1
[1] “d” “e” “f”
$col3
[1] “for” “geeks”
在 get_levels() 方法中,只有因子类型的数据帧列返回输出。以下程序用于了解数据框中列的因子水平计算的数据类型兼容性。
示例 2:
电阻
# getting required libraries
library("hardhat")
# declaring data frame
data_frame <- data.frame(col1 = factor(c(2,4,6)),
col2 = FALSE, col3 = LETTERS[1:3])
print ("Original DataFrame")
print (data_frame)
print ("Factors")
get_levels(data_frame)
输出
col1 col2 col3
1 2 FALSE A
2 4 FALSE B
3 6 FALSE C
[1] “Factors”
$col1
[1] “2” “4” “6”
$col3
[1] “A” “B” “C”
为了产生输出因子(vec),其中 vec 是不兼容的向量,可以在列声明和定义时使用。