📅  最后修改于: 2023-12-03 15:39:59.814000             🧑  作者: Mango
数据分析常常需要查看数据框(dataframe)的基本信息,以便我们能够更好地理解和分析数据。Python的pandas库提供了许多方法来获取数据框的各种信息。本文将介绍如何使用pandas库来获取数据框的摘要信息和一些常见的数据框信息。
我们可以使用info()
方法来查看数据框的基本信息,包括数据类型、非空值的数量和内存占用等。
import pandas as pd
# 创建一个数据框
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],
'Age': [28, 34, 29, 42],
'Salary': [3000.0, 4000.0, 3500.0, 5000.0]}
df = pd.DataFrame(data)
# 查看数据框的摘要信息
df.info()
输出:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Name 4 non-null object
1 Age 4 non-null int64
2 Salary 4 non-null float64
dtypes: float64(1), int64(1), object(1)
memory usage: 224.0+ bytes
这里展示了数据框的基本信息:包括行数和列数、列名称、非空值的数量和每列数据的类型。我们可以看到,这个数据框有3列和4行,列分别为“Name”、“Age”和“Salary”。数据类型为object、int64和float64。
下面是一些我们经常需要知道的数据框信息。
我们可以使用head()
和tail()
方法来查看数据框的前几行和后几行。默认情况下,这两个方法都会显示前/后5行。
# 查看数据框的前几行
df.head()
输出:
Name Age Salary
0 Tom 28 3000.0
1 Jack 34 4000.0
2 Steve 29 3500.0
3 Ricky 42 5000.0
# 查看数据框的后几行
df.tail()
输出:
Name Age Salary
0 Tom 28 3000.0
1 Jack 34 4000.0
2 Steve 29 3500.0
3 Ricky 42 5000.0
我们可以使用describe()
方法来获取数据框的基本统计信息,包括计数、平均数、标准差、最小值、25%、50%和75%中位数、最大值等。
# 查看数据框的基本统计信息
df.describe()
输出:
Age Salary
count 4.000000 4.000000
mean 33.250000 3875.000000
std 5.315073 763.762616
min 28.000000 3000.000000
25% 28.750000 3375.000000
50% 31.500000 3750.000000
75% 36.000000 4250.000000
max 42.000000 5000.000000
我们可以看到,在这个数据框中,“Age”的平均值为33.25岁,“Salary”的平均值为$3875。此外,我们还可以看到每列的最小值、25%、50%和75%中位数、最大值等。
我们可以使用columns
属性来查看数据框的列名称。
# 查看数据框的列名称
df.columns
输出:
Index(['Name', 'Age', 'Salary'], dtype='object')
我们可以使用index
属性来查看数据框的索引。
# 查看数据框的索引
df.index
输出:
RangeIndex(start=0, stop=4, step=1)
我们可以使用shape
属性来查看数据框的形状(行数和列数)。
# 查看数据框的形状
df.shape
输出:
(4, 3)
在Python中,我们可以使用pandas库中的各种方法来获取数据框的摘要和其他信息。这些信息有助于我们更好地了解和分析数据。