📜  使用命名列制作数据框 - Python (1)

📅  最后修改于: 2023-12-03 15:06:55.619000             🧑  作者: Mango

使用命名列制作数据框 - Python

在Python中使用Pandas库可以很容易地使用命名列制作数据框。Pandas是一个强大的数据处理工具,它可以让我们用非常直观的方式来创建和分析数据。在本文中,我们将讨论如何使用Pandas制作数据框,并给出一些实例。

创建数据框

要创建一个数据框,我们可以使用Pandas库中的DataFrame()函数。该函数可以接受多种参数类型,以创建数据框。以下是一个基本的示例,演示如何使用DataFrame()函数创建一个数据框:

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 45, 22],
        'country': ['US', 'UK', 'CN', 'AU']}

df = pd.DataFrame(data)
print(df)

将输出以下结果:

       name  age country
0     Alice   25      US
1       Bob   30      UK
2   Charlie   45      CN
3     David   22      AU

这里,我们创建了一个名为data的字典,其中包含三列数据:姓名(name)、年龄(age)和国家(country)。然后,我们使用DataFrame()函数将其转换为一个数据框,并将其分配给名为df的变量。

包含索引的数据框

默认情况下,Pandas会自动为数据框的每一行分配一个索引,索引从0开始。您也可以选择自己指定索引。以下是一个包含自定义索引的示例:

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 45, 22],
        'country': ['US', 'UK', 'CN', 'AU']}

df = pd.DataFrame(data, index=[101, 102, 103, 104])
print(df)

将输出以下结果:

        name  age country
101    Alice   25      US
102      Bob   30      UK
103  Charlie   45      CN
104    David   22      AU

这里,我们使用index参数为数据框指定了自定义索引。

通过列选择数据

在数据框中,我们经常需要选择特定的列进行分析。可以使用以下方式选择一个或多个列:

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 45, 22],
        'country': ['US', 'UK', 'CN', 'AU']}

df = pd.DataFrame(data)
print(df['name'])     # 选择单列
print(df[['name', 'age']])   # 选择多列

将输出以下结果:

0      Alice
1        Bob
2    Charlie
3      David
Name: name, dtype: object

       name  age
0     Alice   25
1       Bob   30
2   Charlie   45
3     David   22
通过行选择数据

除了选择列外,我们还可以按行选择数据。要选择单个行,请使用loc[]函数。要选择多个行,请使用loc[]:运算符。以下是一个例子:

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 45, 22],
        'country': ['US', 'UK', 'CN', 'AU']}

df = pd.DataFrame(data, index=[101, 102, 103, 104])
print(df.loc[102])     # 选择单个行
print(df.loc[102:104])    # 选择多个行

将输出以下结果:

name        Bob
age          30
country      UK
Name: 102, dtype: object

        name  age country
102      Bob   30      UK
103  Charlie   45      CN
104    David   22      AU
组合多种数据操作

在实践中,我们通常会一起使用多种数据操作。例如,选择一些列并根据年龄排序:

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 45, 22],
        'country': ['US', 'UK', 'CN', 'AU']}

df = pd.DataFrame(data)
result = df[['name', 'age']].sort_values('age')
print(result)

将输出以下结果:

      name  age
3    David   22
0    Alice   25
1      Bob   30
2  Charlie   45

在这个例子中,我们首先选择了nameage这两列,然后使用sort_values()函数按年龄进行排序。可以看到,最年轻的人物是David,最年长的是Charlie。

总结

在本文中,我们学习了如何使用命名列制作数据框。我们讨论了如何创建数据框、包含索引的数据框、通过列选择数据、通过行选择数据以及组合多种数据操作。Pandas是一个广泛使用的库,它提供了许多数据处理和分析功能,在处理数据时非常有用。