📅  最后修改于: 2023-12-03 15:03:30.410000             🧑  作者: Mango
Pandas是Python中最常用的数据处理库之一。本文将介绍Pandas中最常见的一些值,以及它们的用法和意义。
DataFrame是Pandas中最重要的数据结构之一,它以表格的形式表示了一组数据。DataFrame可以由多个Series组成,每个Series表示一列数据。
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 32, 18, 47],
'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame(data)
print(df)
输出:
name age gender
0 Alice 25 F
1 Bob 32 M
2 Charlie 18 M
3 David 47 M
Series是Pandas中的另一个常见的数据结构,它是一维数组,表示了一列数据。
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 32, 18, 47],
'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame(data)
series = df['age']
print(series)
输出:
0 25
1 32
2 18
3 47
Name: age, dtype: int64
Index是Pandas中的另一个重要的数据结构,它表示了DataFrame或Series中每个元素的位置。Index可以是整数、字符串或日期等。
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 32, 18, 47],
'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame(data)
index = df.index
print(index)
输出:
RangeIndex(start=0, stop=4, step=1)
NaN表示"not a number",通常表示缺失值。在Pandas中,NaN用于表示缺失的数据。
import pandas as pd
import numpy as np
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 32, np.nan, 47],
'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame(data)
print(df)
输出:
name age gender
0 Alice 25.0 F
1 Bob 32.0 M
2 Charlie NaN M
3 David 47.0 M
apply()方法用于将函数应用于DataFrame或Series中的每个元素。
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 32, 18, 47],
'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame(data)
def add_suffix(name):
return name + ' Doe'
df['name'] = df['name'].apply(add_suffix)
print(df)
输出:
name age gender
0 Alice Doe 25 F
1 Bob Doe 32 M
2 Charlie Doe 18 M
3 David Doe 47 M
groupby()方法用于对DataFrame进行分组,并对每个组应用一个函数。
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 32, 18, 47],
'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame(data)
grouped_df = df.groupby(['gender'])
for name, group in grouped_df:
print(name)
print(group)
输出:
F
name age gender
0 Alice 25 F
M
name age gender
1 Bob 32 M
2 Charlie 18 M
3 David 47 M
本文介绍了Pandas中最常见的一些值,包括DataFrame、Series、Index、NaN、apply()和groupby()。这些值对于数据分析和处理非常重要,掌握它们的用法能够让程序员更加高效地进行数据处理。