📅  最后修改于: 2023-12-03 14:51:27.560000             🧑  作者: Mango
在进行数据科学任务时,经常需要随机抽样从数据集中获取一定数量的样本行。在 Python 中,可以使用 Pandas 中的 sample()
方法获取随机行。
df.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
其中:
n
: 返回的行数。frac
: 随机抽取的行占原始数据框的比例。replace
: 是否有重复抽样的情况。weights
: 每个样本行的权重。random_state
: 随机数种子,用于重复结果。axis
: 在哪个维度上抽样,默认为行(axis=0
)。n
和 frac
不能同时使用,如果同时使用,会优先使用 n
。
import pandas as pd
# 读取数据集
df = pd.read_csv('data.csv')
# 随机抽取 5 行
sampled_df = df.sample(n=5)
# 随机抽取 10% 的行
sampled_df = df.sample(frac=0.1)
# 随机抽取 10 行,有重复抽样
sampled_df = df.sample(n=10, replace=True)
使用 Pandas 中的 sample()
方法,可以非常方便地从数据框中获取随机行,扩大数据集的覆盖面,增加模型的准确度。