📅  最后修改于: 2023-12-03 15:03:29.850000             🧑  作者: Mango
在 pandas 中,我们可以通过 DataFrame
对象进行多列的输出。我们可以选择列的子集,根据特定的条件筛选列,或者在列之间进行计算。
我们可以使用 DataFrame
对象的 []
操作符来选择列。例如,假设我们有一个包含以下列的数据集:
import pandas as pd
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Paris', 'London'],
'country': ['USA', 'France', 'UK']
}
df = pd.DataFrame(data)
如果要选择 name
和 age
两列,我们可以使用以下代码:
name_age = df[['name', 'age']]
这将返回一个新的 DataFrame
,其中只包含 name
和 age
两列。
我们可以根据特定的条件来筛选列。例如,假设我们想在数据集中选择那些居住在 USA
的人的信息,我们可以使用以下代码:
usa_residents = df.loc[df['country'] == 'USA', ['name', 'age']]
这将返回一个新的 DataFrame
,其中只包含居住在 USA
的人的 name
和 age
两列。
我们也可以在列之间进行计算,并将结果保存在新的列中。例如,假设我们有一个包含以下两列的数据集:
data = {
'x': [1, 2, 3],
'y': [4, 5, 6]
}
df = pd.DataFrame(data)
如果要计算 x
和 y
两列的和,并将结果保存在新的 z
列中,我们可以使用以下代码:
df['z'] = df['x'] + df['y']
这将在原始数据集中添加一个名为 z
的新列,其值为 x
和 y
两列的和。
除了上面的示例之外,还有很多其他的操作可以在 pandas 中使用,能够对数据集进行快速高效的操作。我们只需要根据具体的需求,灵活使用 pandas 提供的 API 即可。