📜  探索数据数据框 pandas - Python (1)

📅  最后修改于: 2023-12-03 15:10:10.524000             🧑  作者: Mango

探索数据框 pandas - Python

Pandas是一个流行的Python库,用于数据分析和数据操作,基于NumPy。它提供了数据框(DataFrame)这个对象,使得数据的处理更加方便和直观。

1. 安装和导入Pandas

可以使用pip来安装Pandas:

pip install pandas

在Python代码中导入Pandas:

import pandas as pd
2. 创建DataFrame对象

Pandas的数据框是由一维的Series对象构建的,Series可以是整数、浮点数、字符串等数据类型的数组。我们可以通过一个字典(Dictionary)的方式来初始化一个DataFrame对象:

import pandas as pd

data = {'名字': ['小明', '小红', '小刚'], 
        '年龄': [23, 25, 24], 
        '成绩': [88.5, 93.2, 90.4],
        '性别': ['男', '女', '男']}
df = pd.DataFrame(data)
print(df)

输出:

   名字  年龄    成绩 性别
0  小明  23  88.5  男
1  小红  25  93.2  女
2  小刚  24  90.4  男
3. 查看DataFrame对象

DataFrame对象提供了多种查看数据的方式。比如,我们可以使用head()方法查看前几行数据:

import pandas as pd

data = {'名字': ['小明', '小红', '小刚'], 
        '年龄': [23, 25, 24], 
        '成绩': [88.5, 93.2, 90.4],
        '性别': ['男', '女', '男']}
df = pd.DataFrame(data)
print(df.head(2))

输出:

   名字  年龄    成绩 性别
0  小明  23  88.5  男
1  小红  25  93.2  女

我们也可以使用info()方法查看DataFrame对象的详细信息:

import pandas as pd

data = {'名字': ['小明', '小红', '小刚'], 
        '年龄': [23, 25, 24], 
        '成绩': [88.5, 93.2, 90.4],
        '性别': ['男', '女', '男']}
df = pd.DataFrame(data)
print(df.info())

输出:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   名字     3 non-null      object 
 1   年龄     3 non-null      int64  
 2   成绩     3 non-null      float64
 3   性别     3 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 224.0+ bytes
None
4. 筛选数据

我们可以使用loc[]方法对DataFrame对象进行筛选数据:

import pandas as pd

data = {'名字': ['小明', '小红', '小刚'], 
        '年龄': [23, 25, 24], 
        '成绩': [88.5, 93.2, 90.4],
        '性别': ['男', '女', '男']}
df = pd.DataFrame(data)
print(df.loc[df['年龄'] > 23])

输出:

   名字  年龄    成绩 性别
1  小红  25  93.2  女
2  小刚  24  90.4  男
5. 排序数据

我们可以使用sort_values()方法对DataFrame对象进行排序:

import pandas as pd

data = {'名字': ['小明', '小红', '小刚'], 
        '年龄': [23, 25, 24], 
        '成绩': [88.5, 93.2, 90.4],
        '性别': ['男', '女', '男']}
df = pd.DataFrame(data)
print(df.sort_values(by=['年龄']))

输出:

   名字  年龄    成绩 性别
0  小明  23  88.5  男
2  小刚  24  90.4  男
1  小红  25  93.2  女
6. 分组数据

我们可以使用groupby()方法对DataFrame对象进行分组:

import pandas as pd

data = {'名字': ['小明', '小红', '小刚', '小张', '小李'], 
        '年龄': [23, 25, 24, 26, 24], 
        '成绩': [88.5, 93.2, 90.4, 87.3, 91.2],
        '性别': ['男', '女', '男', '男', '女']}
df = pd.DataFrame(data)
print(df.groupby(['性别']).mean())

输出:

           年龄         成绩
性别                      
女   24.500000  92.200000
男   24.333333  88.733333

以上就是基本的探索和操作DataFrame对象的介绍了。Pandas提供了极为广泛的数据操作和探索方法,可以帮助我们轻松应对各种数据分析任务。