如何从 Pandas DataFrame 中随机选择行(1)

📌 相关文章

📜 如何从 Pandas DataFrame 中随机选择行(1)

📅 最后修改于: 2023-12-03 15:37:54.596000 🧑 作者: Mango

如何从 Pandas DataFrame 中随机选择行

在数据处理和分析中，我们有时需要从 Pandas DataFrame 中随机选择一些行，进行样本分析或模拟等操作。那么如何在 Pandas 中实现这个功能呢？本文将介绍几种方法供读者参考。

1. 使用 sample() 方法

Pandas 的 DataFrame 类有一个 sample() 方法，该方法可以从 DataFrame 中随机选择指定数量的行或百分比比例的行。示例代码如下：

import pandas as pd

# 读取数据集
df = pd.read_csv('data.csv')

# 从数据集中随机选择 10 行数据
sample_df = df.sample(10)

print(sample_df)

其中，sample() 方法的参数可以是指定数量的整数，也可以是百分比的浮点数。例如，如果我们想从数据集中随机选择 20% 的样本，可以这样写：

sample_df = df.sample(frac=0.2)

2. 使用 numpy.random.choice() 方法

除了 Pandas 的 sample() 方法，我们还可以使用 numpy.random.choice() 方法来实现从 DataFrame 中随机选择行的操作。示例代码如下：

import pandas as pd
import numpy as np

# 读取数据集
df = pd.read_csv('data.csv')

# 生成一个长度为 10 的随机索引数组
random_index = np.random.choice(df.index, size=10, replace=False)

# 使用随机索引选择样本
sample_df = df.loc[random_index]

print(sample_df)

其中，numpy.random.choice() 方法的参数包括原始数据集的索引（df.index）、选择的样本数量（size）和是否重复选择数据（replace）等。

3. 需要注意的事项

在使用上述方法随机从 DataFrame 中选择行时，需要注意以下两个问题：

如果原始数据集的索引不是唯一的，则 numpy.random.choice() 方法随机选择的可能会是重复的样本。此时，我们需要将 replace 参数设置为 True，允许重复选择数据。示例代码如下：
```
# 生成长度为 10 的随机索引数组，允许重复
random_index = np.random.choice(df.index, size=10, replace=True)
```

如果数据集比较大，则从数据集中随机选择样本可能会花费较长的时间。此时，我们可以先通过 sample() 方法随机选取部分数据，再用 numpy.random.choice() 方法从选取的数据中进行进一步的随机选择，从而提高效率。示例代码如下：

# 从数据集中随机选择 10% 的样本
sample_df = df.sample(frac=0.1)

# 生成一个长度为 10 的随机索引数组
random_index = np.random.choice(sample_df.index, size=10, replace=False)

# 使用随机索引选择样本
final_sample_df = sample_df.loc[random_index]

print(final_sample_df)

通过上述介绍，我们可以看到，在 Pandas 中随机选择行有多种方法可供选择，读者可以根据自己的需要进行选择和应用。