📅  最后修改于: 2023-12-03 15:41:33.233000             🧑  作者: Mango
在Python中,Pandas是一个非常常用的数据分析库。它提供了数据结构和数据分析工具,特别是适用于操作表格形式的数据。在这一技术文档中,我们将介绍如何创建和操作熊猫(Pandas)数据框。在开始之前,让我们先简单了解下数据框。
熊猫(Pandas)数据框是一个表格形式的数据结构,它由行和列组成,类似于电子表格或SQL表。每一列可以包含不同的数据类型(例如,数字,字符串以及布尔值),但是每一列的数据类型必须相同。熊猫数据框尤其适合处理结构化数据,如CSV文件、Excel表格等。下面我们将介绍如何创建一个简单的熊猫数据框。
要创建一个熊猫数据框,我们可以使用pd.DataFrame()
函数。该函数的参数是包含数据和列名的字典。下面是一个简单的示例:
import pandas as pd
data = {'name': ['Jack', 'Jill', 'John', 'James'], 'age': [25, 30, 18, 42], 'city': ['New York', 'Paris', 'Tokyo', 'London']}
df = pd.DataFrame(data)
这将创建以下熊猫数据框:
| | name | age | city | |---:|-------:|----:|---------:| | 0 | Jack | 25 | New York | | 1 | Jill | 30 | Paris | | 2 | John | 18 | Tokyo | | 3 | James | 42 | London |
在Python中,我们可以使用print()
函数将熊猫数据框打印到控制台。但是,这不是一个很好的方式,因为数据可能比较庞大。相反,我们可以使用df.head(n)
,其中n是要打印的前n行的数量。例如,要显示前3行:
print(df.head(3))
这将显示以下内容:
| | name | age | city | |---:|-------:|----:|---------:| | 0 | Jack | 25 | New York | | 1 | Jill | 30 | Paris | | 2 | John | 18 | Tokyo |
我们可以使用df.shape
属性获取熊猫数据框的形状。此属性返回一个元组,其中第一个元素是行数,第二个元素是列数。例如,要查看上面创建的数据框的形状:
print(df.shape)
这将输出(4, 3)
,表示它有4行和3列。
我们可以通过许多方法来修改熊猫数据框。最常见的方法之一是使用列名访问列,并使用标量或其他列来分配新值。例如,要将“age”列中的所有值加1:
df['age'] = df['age'] + 1
这将给每个人的年龄加1。我们也可以使用其他列来定义新的列。例如,我们可以使用以下代码创建一个名为“is_adult”的列,其中值为True或False:
df['is_adult'] = df['age'] >= 18
最后,我们可以使用df.drop(labels, axis)
方法来删除行或列。labels
参数是要删除的行或列的标签或名称。axis
参数可以是0或1,分别表示删除行或列。例如,要删除“is_adult”列:
df = df.drop('is_adult', axis=1)
以上就是一些熊猫(Pandas)数据框的基本操作。熊猫库提供了很多高级功能,可以使得数据处理变得更加快捷和高效。如果想深入了解,请使用熊猫(Pandas)文档。