📅  最后修改于: 2023-12-03 14:51:47.263000             🧑  作者: Mango
交叉表(Crosstab)是一种用于统计分组数据的方法,它可以将两个变量之间的关系呈现为一个表格。在Python中,我们可以使用pandas库来实现交叉表的创建。
首先,我们需要创建一个字典来保存需要统计的数据。字典中的键表示第一个变量,值表示第二个变量。
data = {'性别': ['男', '女', '男', '女', '女', '男', '男', '女'],
'年龄': ['20-29', '30-39', '20-29', '30-39', '20-29', '30-39', '20-29', '30-39']}
将字典转化为DataFrame,这个过程比较简单,使用pandas库中的DataFrame函数即可。
import pandas as pd
df = pd.DataFrame(data)
print(df)
输出:
性别 年龄
0 男 20-29
1 女 30-39
2 男 20-29
3 女 30-39
4 女 20-29
5 男 30-39
6 男 20-29
7 女 30-39
创建交叉表的方法非常简单,只需要使用pandas库中的crosstab函数即可。
ct = pd.crosstab(df['性别'], df['年龄'])
print(ct)
输出:
年龄 20-29 30-39
性别
女 1 3
男 3 1
如果需要自定义交叉表中的行列名字,只需要在crosstab函数中添加参数即可。
ct = pd.crosstab(df['性别'], df['年龄'], rownames=['性别'], colnames=['年龄段'])
print(ct)
输出:
年龄段 20-29 30-39
性别
女 1 3
男 3 1
通过以上的介绍,我们可以发现使用pandas库中的crosstab函数可以非常方便地创建交叉表。在实际的数据分析中,交叉表是一种非常有用的统计方法,可以帮助我们更清晰地理解数据之间的关系。