📅  最后修改于: 2023-12-03 15:04:46.457000             🧑  作者: Mango
R数据框是一种二维的数据结构,意义类似于Excel中的表格或SQL中的表。数据框由多个列组成,每列的数据类型可以不同,但是每列数据类型必须相同。一般情况下,数据框的每一行代表一个数据观测值,每一列代表该观测值的某一属性。
我们可以通过data.frame()
函数来创建一个R数据框。以下是创建一个简单的数据框的例子。
# 创建数据框
df <- data.frame(
name = c("Alice", "Bob", "Charlie"),
age = c(25, 30, 35),
married = c(FALSE, TRUE, TRUE)
)
在上面的例子中,我们创建了一个包含三个列的数据框,分别是name
、age
和married
。其中name
列是字符串类型,age
列是数值类型,married
列是逻辑类型。
我们可以使用head()
函数来查看数据框的前几行。
# 查看数据框前几行
head(df)
输出结果为:
name age married
1 Alice 25 FALSE
2 Bob 30 TRUE
3 Charlie 35 TRUE
我们也可以通过读取文件的方式来创建一个R数据框。R中可以读取多种格式的文件,例如文本文件、CSV文件、Excel表格等等。
以下是读取CSV文件的例子。假设我们有一个名为iris.csv
的文件,文件中包含了鸢尾花数据集的四个属性(sepal_length、sepal_width、petal_length、petal_width)和一个类别(species)。
# 从CSV文件中读取数据框
df <- read.csv("iris.csv")
在上面的例子中,我们使用read.csv()
函数从iris.csv
文件中读取数据,并将其存储到名为df
的变量中。
R数据框提供了很多的函数来对数据框进行操作。以下是一些常用的操作函数。
我们可以使用以下函数来查看数据框的结构和内容。
# 查看数据框的结构
str(df)
# 查看数据框的前几行
head(df)
# 查看数据框的后几行
tail(df)
我们可以使用以下函数来选择数据框中的某些列。
# 选择一个列
df$species
# 选择多个列
df[, c("species", "sepal_length")]
我们可以使用以下函数来过滤数据框中的某些行。
# 过滤行
subset(df, sepal_length > 5)
# 取反过滤
subset(df, !(sepal_length > 5))
我们可以使用以下函数来对数据框中的某些列进行排序。
# 按照某一列升序排序
df[order(df$sepal_length), ]
# 按照某一列降序排序
df[order(-df$sepal_length), ]
我们可以使用以下函数来对数据框中的某些列进行聚合操作。
# 按照某一列聚合并求和
aggregate(df$sepal_length, by = list(df$species), FUN = sum)
在R中,数据框是一种很重要的数据结构,常常用来处理表格数据。我们可以使用data.frame()
函数或者文件读取方式来创建一个数据框。数据框提供了丰富的操作函数来对数据进行操作,包括查看、选择、过滤、排序和聚合等操作。