Python中的列联表
在单变量数据分析的情况下,平均值、中位数、标准差和方差等估计非常有用。但是在双变量分析(比较两个变量)的情况下,相关性就起作用了。
列联表是探索两个甚至更多变量的技术之一。它基本上是两个或多个分类变量之间的计数。
要获取贷款数据,请单击此处。
加载库
import numpy as np
import pandas as pd
import matplotlib as plt
加载数据中
data = pd.read_csv("loan_status.csv")
print (data.head(10))
输出:
描述数据
data.describe()
输出:
数据信息
data.info()
输出:
数据类型
# data types of feature/attributes
# in the data
data.dtypes
输出:
代码#1:列联表显示等级和贷款状态之间的相关性。
data_crosstab = pd.crosstab(data['grade'],
data['loan_status'],
margins = False)
print(data_crosstab)
输出:
代码#2:列联表显示目的和贷款状态之间的相关性。
data_crosstab = pd.crosstab(data['purpose'],
data['loan_status'],
margins = False)
print(data_crosstab)
输出:
代码#3:列联表显示成绩+目的和贷款状态之间的相关性。
data_crosstab = pd.crosstab([data.grade, data.purpose],
data.loan_status, margins = False)
print(data_crosstab)
输出:
因此,在代码中,列联表给出了两个或更多变量之间的明确相关值。因此,了解数据以进行进一步的信息提取变得更加有用。
.