📜  朱莉娅 – 数据帧(1)

📅  最后修改于: 2023-12-03 15:10:40.307000             🧑  作者: Mango

Julia - DataFrames

Julia是一款高性能且易于编程的动态编程语言。它的数据帧(DataFrames)是一个非常强大的工具,它允许您使用类似R中的数据框架的方式进行数据处理和分析。

安装

安装DataFrames很简单,只需运行以下命令:pkg install DataFrames

创建一个数据帧

我们可以使用DataFrames包中的DataFrame函数创建一个数据帧。

using DataFrames

df = DataFrame(A = 1:4, B = ["M", "F", "F", "M"], C = [21, 35, 58, 67])

该函数将创建一个包含三列的数据帧,并将它们命名为ABC

访问数据帧

我们可以使用列名或索引号访问数据帧中的列,也可以使用行号访问行。

# 访问列
df.A   # 或 df[!, :A]
df[!, "B"]

# 访问行
df[1, :]
df[2:end, :]
过滤行

我们可以使用布尔向量过滤数据帧中的行。

df[df.B .== "F", :]

上述代码将返回一个包含性别为女性的所有行的新数据帧。

更改列名

我们可以使用rename!函数更改列名。

rename!(df, [:A, :B, :Age])

上述代码将把第三列名称从C更改为Age

更改列类型

我们可以使用coerce函数更改列的数据类型。

df.Age = coerce(df.Age, Int)

上述代码将把Age列的数据类型更改为整数。

描述性统计

我们可以使用describe函数获取数据帧列的描述性统计信息。

describe(df)
分组

我们可以使用groupbycombine函数来对数据帧按列分组并计算统计信息。

gdf = groupby(df, :B)
combine(gdf, :A => mean, :Age => minimum)

上述代码将把数据帧按B列分组,并计算A列的均值和Age列的最小值。

以上是Julia DataFrames的基本内容。DataFrames的功能非常强大,可以处理很多类型的数据,例如时间序列和地理空间数据。它还集成了Pandas数据框架的一些优秀功能,在大型数据集中效率很高。