📅  最后修改于: 2023-12-03 14:51:47.953000             🧑  作者: Mango
在使用数据框进行数据分析时,需要从中准备出自变量和因变量。本文将介绍如何使用 Python 从数据框中准备自变量和因变量。
我们首先需要准备数据。假设我们有一个数据框,其中包含了学生的性别、年龄和分数等信息。
import pandas as pd
data = {
'gender': ['M', 'F', 'M', 'F', 'M', 'M', 'F', 'M', 'F', 'M'],
'age': [20, 21, 22, 23, 22, 21, 20, 23, 22, 21],
'score': [78, 85, 92, 77, 88, 81, 75, 90, 86, 80]
}
df = pd.DataFrame(data)
print(df)
输出:
gender age score
0 M 20 78
1 F 21 85
2 M 22 92
3 F 23 77
4 M 22 88
5 M 21 81
6 F 20 75
7 M 23 90
8 F 22 86
9 M 21 80
在数据框中,自变量通常是指输入变量,我们可以将其表示为 $X$,在本例中,我们可以将年龄和性别作为自变量。
X = df[['gender', 'age']]
print(X)
输出:
gender age
0 M 20
1 F 21
2 M 22
3 F 23
4 M 22
5 M 21
6 F 20
7 M 23
8 F 22
9 M 21
请注意,我们将 'gender' 和 'age' 作为列表传递给 df
。
在数据框中,因变量通常是指输出变量,我们可以将其表示为 $y$,在本例中,我们可以将分数作为因变量。
y = df['score']
print(y)
输出:
0 78
1 85
2 92
3 77
4 88
5 81
6 75
7 90
8 86
9 80
Name: score, dtype: int64
请注意,我们将列名 'score' 传递给 df
。
这样,我们就准备好了自变量和因变量,可以将其用于数据分析了。
本文介绍了如何使用 Python 从数据框中准备自变量和因变量。请注意,我们需要先准备好数据框,然后才能从中获取自变量和因变量。准备好数据后,我们可以将自变量和因变量用于数据分析。