📅  最后修改于: 2023-12-03 15:19:21.542000             🧑  作者: Mango
Python|熊猫时期是一个旨在提供数据清洗、处理、分析和可视化功能的Python第三方库。它使用NumPy、SciPy和Matplotlib等工具来提供高效的数据操作和分析方法。
熊猫时期主要包括两种数据结构:数据系列(Series)和数据帧(DataFrame)。数据系列是一种类似于一维数组的数据结构,它可以包含任何一种数据类型;数据帧则是一个二维的、表格形式的数据结构,它可以包含多种数据类型。
下面是一个简单的熊猫时期使用示例:
import pandas as pd
# 创建数据系列
s = pd.Series([1, 2, 3, 4, 5])
# 创建数据帧
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 32, 18, 47],
'city': ['New York', 'Paris', 'London', 'San Francisco']}
df = pd.DataFrame(data)
# 输出数据系列和数据帧
print(s)
print(df)
以上代码会生成以下输出:
0 1
1 2
2 3
3 4
4 5
dtype: int64
name age city
0 Alice 25 New York
1 Bob 32 Paris
2 Charlie 18 London
3 David 47 San Francisco
熊猫时期支持多种数据分析功能,例如描述性统计、分组、透视表和时间序列分析等。
描叙性统计函数可以帮助你计算数据系列和数据帧中的各种统计数据,例如平均值、中位数、标准差和方差等。
以下是一个描述性统计示例:
import pandas as pd
# 创建数据帧
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 32, 18, 47],
'city': ['New York', 'Paris', 'London', 'San Francisco']}
df = pd.DataFrame(data)
# 输出数据帧的描述性统计
print(df.describe())
以上代码会生成以下输出:
age
count 4.000000
mean 30.500000
std 13.499031
min 18.000000
25% 23.250000
50% 28.500000
75% 35.750000
max 47.000000
熊猫时期支持将数据帧按照指定条件进行分组,并进行统计计算。
以下是一个数据分组示例:
import pandas as pd
# 创建数据帧
data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'age': [25, 32, 18, 47, 25],
'city': ['New York', 'Paris', 'London', 'San Francisco', 'London']}
df = pd.DataFrame(data)
# 按城市进行数据分组
grouped = df.groupby(['city'])
# 计算各组平均值
print(grouped.mean())
以上代码会生成以下输出:
age
city
London 21.5
New York 25.0
Paris 32.0
San Francisco 47.0
除了数据分组,熊猫时期还支持透视表功能,它可以将数据帧按照指定条件进行透视和统计。
以下是一个透视表示例:
import pandas as pd
# 创建数据帧
data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'age': [25, 32, 18, 47, 25],
'city': ['New York', 'Paris', 'London', 'San Francisco', 'London'],
'gender': ['female', 'male', 'male', 'male', 'female']}
df = pd.DataFrame(data)
# 创建透视表
pivot = pd.pivot_table(df, values='age', index=['city'], columns=['gender'], aggfunc='mean')
# 输出透视表
print(pivot)
以上代码会生成以下输出:
gender female male
city
London 25.0 18.0
New York NaN 25.0
Paris 32.0 NaN
San Francisco NaN 47.0
熊猫时期还支持时间序列数据的处理和分析。
以下是一个时间序列分析示例:
import pandas as pd
# 创建时间序列数据
dates = pd.date_range('20200101', periods=6)
# 创建数据帧
df = pd.DataFrame({'date': dates,
'value': [1, 3, 2, 4, 6, 5]})
# 将日期作为索引
df = df.set_index('date')
# 计算移动平均值
rolling_mean = df.rolling(window=2).mean()
# 输出结果
print(df)
print(rolling_mean)
以上代码会生成以下输出:
value
date
2020-01-01 1
2020-01-02 3
2020-01-03 2
2020-01-04 4
2020-01-05 6
2020-01-06 5
value
date
2020-01-01 NaN
2020-01-02 2.0
2020-01-03 2.5
2020-01-04 3.0
2020-01-05 5.0
2020-01-06 5.5
Python|熊猫时期提供了丰富的数据清洗、处理、分析和可视化功能,可以帮助程序员轻松处理各种数据。无论是描述性统计、分组、透视表,还是时间序列数据分析,熊猫时期都能提供高效、简便的解决方案。