📅  最后修改于: 2023-12-03 15:10:41.532000             🧑  作者: Mango
Pandas 是一个流行的 Python 数据处理库,它提供了丰富的数据结构和数据分析工具,使数据分析变得更加快捷和高效。在 Pandas 中,有一些独特的单词和概念,这些词汇在使用 Pandas 进行数据分析时会经常出现,因此值得学习和掌握。
DataFrame 是 Pandas 中最常用的数据结构之一,它类似于一个 Excel 表格,由多个行和列组成。每一列可以有自己的数据类型(例如整数、浮点数、字符串等),而整个表格可以被视为一个二维数组。
我们可以使用不同的方法来创建一个 DataFrame,例如通过读取 CSV 文件、从 NumPy 数组中创建、手动创建等。
import pandas as pd
import numpy as np
# 从 CSV 文件中创建 DataFrame
df = pd.read_csv('data.csv')
# 从 NumPy 数组中创建 DataFrame
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
df = pd.DataFrame(arr)
# 手动创建 DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35]}
df = pd.DataFrame(data)
我们可以使用不同的方法来访问 DataFrame 中的行和列,例如使用列名访问、使用行索引访问、使用 loc 和 iloc 方法访问等。
# 获取 DataFrame 的列
df['name']
df.age
# 获取 DataFrame 的行
df.loc[0]
df.iloc[0]
# 获取 DataFrame 的子集
df.loc[0:1, ['name', 'age']]
df.iloc[0:2, 0:2]
Series 是 Pandas 中另一个重要的数据结构,它类似于一个带有标签的一维数组。Series 可以由标量、Python 列表、NumPy 数组等创建,它的每个元素都有一个标签(类似于索引)。
import pandas as pd
# 从标量创建 Series
s = pd.Series(10)
# 从列表创建 Series
lst = [1, 2, 3, 4]
s = pd.Series(lst)
# 从 NumPy 数组创建 Series
arr = np.array([1, 2, 3, 4])
s = pd.Series(arr)
我们可以使用类似于访问列表的语法来访问 Series 中的元素,也可以使用 loc 和 iloc 方法访问。
# 使用索引访问 Series 中的元素
s[0]
s[1:3]
# 使用 loc 和 iloc 访问 Series 中的元素
s.loc[0]
s.iloc[0]
GroupBy 是 Pandas 中的一种强大的数据分组功能,它可以让我们对数据按照一定的标准进行分组,并对每个分组进行统计、聚合等操作。
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, 30, 35, 40], 'salary': [5200, 4800, 6000, 5500]}
df = pd.DataFrame(data)
grouped = df.groupby('age')
# 对分组进行统计操作(例如计算平均值)
grouped.mean()
# 对分组进行聚合操作(例如计算每个分组中 salary 的总和)
grouped['salary'].sum()
以上就是来自 Pandas 的独特单词的介绍,希望对您在学习和使用 Pandas 时有所帮助。Pandas 是一种非常强大和灵活的数据分析工具,掌握它的各种用法对于我们处理数据和进行数据分析都是非常有益的。