📜  Python中的列联表

📅  最后修改于: 2022-05-13 01:55:00.174000             🧑  作者: Mango

Python中的列联表

在单变量数据分析的情况下,平均值、中位数、标准差和方差等估计非常有用。但是在双变量分析(比较两个变量)的情况下,相关性就起作用了。

列联是探索两个甚至更多变量的技术之一。它基本上是两个或多个分类变量之间的计数。

要获取贷款数据,请单击此处。

加载库

import numpy as np
import pandas as pd
import matplotlib as plt

加载数据中

data = pd.read_csv("loan_status.csv")
  
print (data.head(10))

输出:

描述数据

data.describe()

输出:

数据信息

data.info()

输出:

数据类型

# data types of feature/attributes 
# in the data
data.dtypes

输出:

代码#1:列联表显示等级和贷款状态之间的相关性。

data_crosstab = pd.crosstab(data['grade'],
                            data['loan_status'], 
                               margins = False)
print(data_crosstab)

输出:

代码#2:列联表显示目的和贷款状态之间的相关性。

data_crosstab = pd.crosstab(data['purpose'], 
                            data['loan_status'],
                                margins = False)
print(data_crosstab)

输出:

代码#3:列联表显示成绩+目的和贷款状态之间的相关性。

data_crosstab = pd.crosstab([data.grade, data.purpose], 
                             data.loan_status, margins = False)
print(data_crosstab)

输出:

因此,在代码中,列联表给出了两个或更多变量之间的明确相关值。因此,了解数据以进行进一步的信息提取变得更加有用。
.