📅  最后修改于: 2023-12-03 15:19:22.014000             🧑  作者: Mango
Python 熊猫系列是一组基于 Python 编程语言的数据分析库,其中最著名的是 Pandas。Pandas 提供了快速、灵活、易于使用的数据结构和数据分析工具,是 Python 数据分析领域最常用的库之一。
你可以使用以下方式安装 Pandas:
pip install pandas
Pandas 的两种主要数据结构是 Series 和 DataFrame。
Series 是一种一维数组结构,每个元素都有一个标签(也称为索引),可以使用标签快速访问元素。你可以将 Series 视为字典类型的对象,其中标签就是字典中的键值,数据部分就是字典中的值。
创建一个 Series 对象:
import pandas as pd
data = {'a': 0, 'b': 1, 'c': 2}
s = pd.Series(data)
DataFrame 是一种二维表格结构,每列可以是不同的数据类型(数值、字符串、布尔值等)。你可以将 DataFrame 视为电子表格或 SQL 表格类型的对象。
创建一个 DataFrame 对象:
import pandas as pd
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'country': ['China', 'USA', 'Canada']
}
df = pd.DataFrame(data)
在 Pandas 中,你可以使用 loc 和 iloc 属性对数据进行选择和过滤。
loc 属性用于根据标签选择列或行,语法类似于 Python 的字典访问方式。
import pandas as pd
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'country': ['China', 'USA', 'Canada']
}
df = pd.DataFrame(data)
# 选择一行
print(df.loc[0])
# 选择一列
print(df.loc[:, 'name'])
# 选择多行和多列
print(df.loc[0:1, ['name', 'age']])
iloc 属性用于根据位置选择列或行,语法类似于 Python 列表访问方式。
import pandas as pd
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'country': ['China', 'USA', 'Canada']
}
df = pd.DataFrame(data)
# 选择一行
print(df.iloc[0])
# 选择一列
print(df.iloc[:, 0])
# 选择多行和多列
print(df.iloc[0:2, [0, 1]])
Pandas 提供了许多统计函数,用于对数据进行分析。
import pandas as pd
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'weight': [60, 70, 80]
}
df = pd.DataFrame(data)
# 计算某一列的均值
print(df['age'].mean())
# 计算某一列的中位数
print(df['age'].median())
# 计算某一列的标准差
print(df['age'].std())
import pandas as pd
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'weight': [60, 70, 80]
}
df = pd.DataFrame(data)
# 计算不同列之间的相关性
print(df.corr())
通过本文,你了解了 Python 熊猫系列的主要库 Pandas,学习了如何创建 Series 和 DataFrame 对象、进行数据选择和过滤,以及进行数据的统计分析。这些知识将帮助你更好地进行 Python 数据分析工作。