在数据框中获取随机行 - Python (1)

📌 相关文章

📜 在数据框中获取随机行 - Python (1)

📅 最后修改于: 2023-12-03 14:51:27.560000 🧑 作者: Mango

在数据框中获取随机行 - Python

在进行数据科学任务时，经常需要随机抽样从数据集中获取一定数量的样本行。在 Python 中，可以使用 Pandas 中的 sample() 方法获取随机行。

语法

df.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

其中：

n: 返回的行数。
frac: 随机抽取的行占原始数据框的比例。
replace: 是否有重复抽样的情况。
weights: 每个样本行的权重。
random_state: 随机数种子，用于重复结果。
axis: 在哪个维度上抽样，默认为行（axis=0）。

n 和 frac 不能同时使用，如果同时使用，会优先使用 n。

示例

import pandas as pd

# 读取数据集
df = pd.read_csv('data.csv')

# 随机抽取 5 行
sampled_df = df.sample(n=5)

# 随机抽取 10% 的行
sampled_df = df.sample(frac=0.1)

# 随机抽取 10 行，有重复抽样
sampled_df = df.sample(n=10, replace=True)

结论

使用 Pandas 中的 sample() 方法，可以非常方便地从数据框中获取随机行，扩大数据集的覆盖面，增加模型的准确度。