📅  最后修改于: 2023-12-03 15:06:35.716000             🧑  作者: Mango
在数据分析和处理中,我们经常需要从一个大型的数据框中选择部分列进行分析和处理。Python中pandas库可以轻松地实现这个功能。
假设我们有以下数据框df:
| Name | Age | Gender | Income | |:----:|:---:|:------:|:------:| | Alice| 25 | Female | 60000 | | Bob | 30 | Male | 70000 | | Cindy| 35 | Female | 80000 | | David| 40 | Male | 90000 |
如果想要选择Name和Income这两列作为我们的分析对象,可以使用以下代码:
df[['Name', 'Income']]
此时输出结果为:
| Name | Income | |:----:|:------:| | Alice| 60000 | | Bob | 70000 | | Cindy| 80000 | | David| 90000 |
这里的双重方括号“[[ ]]”表示选择多列,每一个括号内写一个列名。
除了选择列名外,还可以选择列所在的位置。比如如果我们想要选择第一列和第四列,可以使用以下代码:
df.iloc[:, [0, 3]]
此时输出结果为:
| Name | Income | |:----:|:------:| | Alice| 60000 | | Bob | 70000 | | Cindy| 80000 | | David| 90000 |
在代码中,“:”表示选择所有行,“[0, 3]”表示选择第一列和第四列。
如果想要选择连续的几列,可以使用以下代码:
df.iloc[:, 1:4]
此时输出结果为:
| Age | Gender | Income | |:---:|:------:|:------:| | 25 | Female | 60000 | | 30 | Male | 70000 | | 35 | Female | 80000 | | 40 | Male | 90000 |
在代码中,“1:4”表示选择第二列到第四列(不包括第四列)。
以上就是从数据框中选择特定的列名的几种方法,希望对大家有所帮助。