Python|熊猫 Dataframe.sample()
Python是一种用于进行数据分析的出色语言,主要是因为以数据为中心的Python包的奇妙生态系统。 Pandas 就是其中之一,它使导入和分析数据变得更加容易。
Pandas sample()
用于从函数调用者数据框中生成样本随机行或列。
Syntax:
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
Parameters:
n: int value, Number of random rows to generate.
frac: Float value, Returns (float value * length of data frame values ). frac cannot be used with n.
replace: Boolean value, return sample with replacement if True.
random_state: int value or numpy.random.RandomState, optional. if set to a particular integer, will return same rows as sample in every iteration.
axis: 0 or ‘row’ for Rows and 1 or ‘column’ for Columns.
返回类型:与调用者类型相同的新对象。
要下载使用的 CSV 文件,请单击此处。
示例 #1:数据框中的随机行
在此示例中, .sample() 方法生成两个随机行并稍后进行比较。
# importing pandas package
import pandas as pd
# making data frame from csv file
data = pd.read_csv("employees.csv")
# generating one row
row1 = data.sample(n = 1)
# display
row1
# generating another row
row2 = data.sample(n = 1)
# display
row2
输出:
如输出图像所示,生成的两个随机样本行彼此不同。
示例 #2:生成 25% 的数据帧样本
在这个例子中,25% 的随机样本数据是从数据帧中生成的。
# importing pandas package
import pandas as pd
# making data frame from csv file
data = pd.read_csv("employees.csv")
# generating one row
rows = data.sample(frac =.25)
# checking if sample is 0.25 times data or not
if (0.25*(len(data))== len(rows)):
print( "Cool")
print(len(data), len(rows))
# display
rows
输出:
如输出图像所示,生成的样本长度为数据帧的 25%。样本也是随机生成的。