📅  最后修改于: 2023-12-03 14:56:12.305000             🧑  作者: Mango
熊猫(Pandas)是一种开源数据分析和数据操作库,常用于数据预处理、数据清洗、数据分析等领域。熊猫提供了高效的数据结构和数据分析工具,同时也能与众多的数据来源进行交互(如Excel、CSV、数据库等)。
熊猫可以使用pip命令进行安装:
pip install pandas
熊猫提供了两种主要的数据结构 - Series 和 DataFrame。
Series是一种一维的数据结构,类似于Numpy中的一维数组。每个Series对象由两个数组组成,一个用于存储数据,另一个用于存储标签(索引)。
import pandas as pd
import numpy as np
s = pd.Series([1,3,5,np.nan,6,8])
print(s)
输出结果如下:
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
DataFrame是一种二维的数据结构,类似于Excel表格。每个DataFrame对象由多个Series组成,每个Series代表一列数据。可以使用字典、CSV文件、Excel文件等创建DataFrame。
import pandas as pd
import numpy as np
data = {
'name': ['Alice', 'Bob', 'Charles', 'David'],
'age': [25, 32, 18, 47],
'gender': ['F', 'M', 'M', 'M']
}
df = pd.DataFrame(data)
print(df)
输出结果如下:
name age gender
0 Alice 25 F
1 Bob 32 M
2 Charles 18 M
3 David 47 M
熊猫提供了丰富的数据操作方法,如:
以下是一个简单示例:
import pandas as pd
import numpy as np
data = {
'name': ['Alice', 'Bob', 'Charles', 'David'],
'age': [25, 32, 18, 47],
'gender': ['F', 'M', 'M', 'M']
}
df = pd.DataFrame(data)
# 基本信息
print(df.info())
# 基本统计信息
print(df.describe())
# 根据条件筛选数据
print(df[df.age > 30])
# 按照年龄排序
print(df.sort_values(by='age'))
# 新增一列数据
df['income'] = [5000, 8000, 3000, 10000]
print(df)
# 按照性别和年龄分组,并计算各组平均收入
print(df.groupby(['gender', 'age']).mean())
# 绘制柱状图
df.plot(kind='bar', x='name', y='income')
熊猫是一种功能强大的数据分析和操作库,可以轻松地进行数据预处理、数据清洗、数据分析等工作。熊猫提供了丰富的数据结构和数据操作方法,可以灵活地适应各种数据需求。