📜  数据框摘要 |数据框信息 - Python (1)

📅  最后修改于: 2023-12-03 15:39:59.814000             🧑  作者: Mango

数据框摘要 |数据框信息 - Python

数据分析常常需要查看数据框(dataframe)的基本信息,以便我们能够更好地理解和分析数据。Python的pandas库提供了许多方法来获取数据框的各种信息。本文将介绍如何使用pandas库来获取数据框的摘要信息和一些常见的数据框信息。

数据框摘要

我们可以使用info()方法来查看数据框的基本信息,包括数据类型、非空值的数量和内存占用等。

import pandas as pd

# 创建一个数据框
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],
         'Age': [28, 34, 29, 42],
         'Salary': [3000.0, 4000.0, 3500.0, 5000.0]}
df = pd.DataFrame(data)

# 查看数据框的摘要信息
df.info()

输出:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    4 non-null      object 
 1   Age     4 non-null      int64  
 2   Salary  4 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 224.0+ bytes

这里展示了数据框的基本信息:包括行数和列数、列名称、非空值的数量和每列数据的类型。我们可以看到,这个数据框有3列和4行,列分别为“Name”、“Age”和“Salary”。数据类型为object、int64和float64。

数据框信息

下面是一些我们经常需要知道的数据框信息。

数据框前几行和后几行

我们可以使用head()tail()方法来查看数据框的前几行和后几行。默认情况下,这两个方法都会显示前/后5行。

# 查看数据框的前几行
df.head()

输出:

    Name  Age  Salary
0    Tom   28  3000.0
1   Jack   34  4000.0
2  Steve   29  3500.0
3  Ricky   42  5000.0
# 查看数据框的后几行
df.tail()

输出:

    Name  Age  Salary
0    Tom   28  3000.0
1   Jack   34  4000.0
2  Steve   29  3500.0
3  Ricky   42  5000.0
数据框的基本统计信息

我们可以使用describe()方法来获取数据框的基本统计信息,包括计数、平均数、标准差、最小值、25%、50%和75%中位数、最大值等。

# 查看数据框的基本统计信息
df.describe()

输出:

             Age       Salary
count   4.000000     4.000000
mean   33.250000  3875.000000
std     5.315073   763.762616
min    28.000000  3000.000000
25%    28.750000  3375.000000
50%    31.500000  3750.000000
75%    36.000000  4250.000000
max    42.000000  5000.000000

我们可以看到,在这个数据框中,“Age”的平均值为33.25岁,“Salary”的平均值为$3875。此外,我们还可以看到每列的最小值、25%、50%和75%中位数、最大值等。

数据框列的名称

我们可以使用columns属性来查看数据框的列名称。

# 查看数据框的列名称
df.columns

输出:

Index(['Name', 'Age', 'Salary'], dtype='object')
数据框的索引

我们可以使用index属性来查看数据框的索引。

# 查看数据框的索引
df.index

输出:

RangeIndex(start=0, stop=4, step=1)
数据框的形状

我们可以使用shape属性来查看数据框的形状(行数和列数)。

# 查看数据框的形状
df.shape

输出:

(4, 3)
结论

在Python中,我们可以使用pandas库中的各种方法来获取数据框的摘要和其他信息。这些信息有助于我们更好地了解和分析数据。