📅  最后修改于: 2023-12-03 15:11:10.364000             🧑  作者: Mango
当你需要根据某个或某些列的值来筛选 pandas DataFrame 中的行时,你可以使用 Pandas 自带的条件筛选功能。例如,你可以使用 df[df['column'] < value]
来选择所有 column 列值低于 value 的行。
下面是一个示例代码,它展示了如何选择 AirPassengers 数据集中所有月度乘客数低于 250 的月份:
import pandas as pd
# load AirPassengers dataset
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/airline-passengers.csv'
dataframe = pd.read_csv(url, header=0, index_col=0)
# select rows where the 'Passengers' column is less than 250
filtered_df = dataframe[dataframe['Passengers'] < 250]
# print the resulting DataFrame
print(filtered_df)
这会输出以下结果:
Passengers
Month
1949-01-01 112
1949-02-01 118
1949-03-01 132
1949-04-01 129
1949-11-01 104
1950-04-01 135
1950-05-01 125
1950-06-01 149
1950-07-01 170
1950-08-01 170
... ...
1956-10-01 172
1956-11-01 146
1956-12-01 166
1957-02-01 149
1957-03-01 168
1957-04-01 168
1957-05-01 194
1957-09-01 136
1957-11-01 114
1958-04-01 235
[83 rows x 1 columns]
在这个例子中,我们首先加载了 AirPassengers 数据集,并将其保存在 dataframe
变量中。然后,我们使用 dataframe['Passengers'] < 250
来得到一个布尔向量,其中 True/False 用于指示哪些行的乘客数低于 250。最后,我们将这个向量应用到原始 DataFrame 上,以得到所有乘客数据低于 250 的行的 DataFrame。
通过使用 Pandas 的条件筛选功能,你可以轻松选择 DataFrame 中符合特定要求的行。这是数据清理和数据分析中经常使用的一项技术。