📜  pandas 最常见的值 - Python (1)

📅  最后修改于: 2023-12-03 15:03:30.410000             🧑  作者: Mango

Pandas最常见的值 - Python

Pandas是Python中最常用的数据处理库之一。本文将介绍Pandas中最常见的一些值,以及它们的用法和意义。

DataFrame

DataFrame是Pandas中最重要的数据结构之一,它以表格的形式表示了一组数据。DataFrame可以由多个Series组成,每个Series表示一列数据。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 32, 18, 47],
        'gender': ['F', 'M', 'M', 'M']}

df = pd.DataFrame(data)

print(df)

输出:

       name  age gender
0     Alice   25      F
1       Bob   32      M
2   Charlie   18      M
3     David   47      M
Series

Series是Pandas中的另一个常见的数据结构,它是一维数组,表示了一列数据。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 32, 18, 47],
        'gender': ['F', 'M', 'M', 'M']}

df = pd.DataFrame(data)
series = df['age']

print(series)

输出:

0    25
1    32
2    18
3    47
Name: age, dtype: int64
Index

Index是Pandas中的另一个重要的数据结构,它表示了DataFrame或Series中每个元素的位置。Index可以是整数、字符串或日期等。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 32, 18, 47],
        'gender': ['F', 'M', 'M', 'M']}

df = pd.DataFrame(data)
index = df.index

print(index)

输出:

RangeIndex(start=0, stop=4, step=1)
NaN

NaN表示"not a number",通常表示缺失值。在Pandas中,NaN用于表示缺失的数据。

import pandas as pd
import numpy as np

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 32, np.nan, 47],
        'gender': ['F', 'M', 'M', 'M']}

df = pd.DataFrame(data)

print(df)

输出:

       name   age gender
0     Alice  25.0      F
1       Bob  32.0      M
2   Charlie   NaN      M
3     David  47.0      M
apply()

apply()方法用于将函数应用于DataFrame或Series中的每个元素。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 32, 18, 47],
        'gender': ['F', 'M', 'M', 'M']}

df = pd.DataFrame(data)

def add_suffix(name):
    return name + ' Doe'

df['name'] = df['name'].apply(add_suffix)

print(df)

输出:

           name  age gender
0     Alice Doe   25      F
1       Bob Doe   32      M
2   Charlie Doe   18      M
3     David Doe   47      M
groupby()

groupby()方法用于对DataFrame进行分组,并对每个组应用一个函数。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 32, 18, 47],
        'gender': ['F', 'M', 'M', 'M']}

df = pd.DataFrame(data)

grouped_df = df.groupby(['gender'])

for name, group in grouped_df:
    print(name)
    print(group)

输出:

F
    name  age gender
0  Alice   25      F
M
       name  age gender
1       Bob   32      M
2   Charlie   18      M
3     David   47      M
Conclusion

本文介绍了Pandas中最常见的一些值,包括DataFrame、Series、Index、NaN、apply()和groupby()。这些值对于数据分析和处理非常重要,掌握它们的用法能够让程序员更加高效地进行数据处理。