📅  最后修改于: 2023-12-03 15:10:10.524000             🧑  作者: Mango
Pandas是一个流行的Python库,用于数据分析和数据操作,基于NumPy。它提供了数据框(DataFrame)这个对象,使得数据的处理更加方便和直观。
可以使用pip来安装Pandas:
pip install pandas
在Python代码中导入Pandas:
import pandas as pd
Pandas的数据框是由一维的Series对象构建的,Series可以是整数、浮点数、字符串等数据类型的数组。我们可以通过一个字典(Dictionary)的方式来初始化一个DataFrame对象:
import pandas as pd
data = {'名字': ['小明', '小红', '小刚'],
'年龄': [23, 25, 24],
'成绩': [88.5, 93.2, 90.4],
'性别': ['男', '女', '男']}
df = pd.DataFrame(data)
print(df)
输出:
名字 年龄 成绩 性别
0 小明 23 88.5 男
1 小红 25 93.2 女
2 小刚 24 90.4 男
DataFrame对象提供了多种查看数据的方式。比如,我们可以使用head()方法查看前几行数据:
import pandas as pd
data = {'名字': ['小明', '小红', '小刚'],
'年龄': [23, 25, 24],
'成绩': [88.5, 93.2, 90.4],
'性别': ['男', '女', '男']}
df = pd.DataFrame(data)
print(df.head(2))
输出:
名字 年龄 成绩 性别
0 小明 23 88.5 男
1 小红 25 93.2 女
我们也可以使用info()方法查看DataFrame对象的详细信息:
import pandas as pd
data = {'名字': ['小明', '小红', '小刚'],
'年龄': [23, 25, 24],
'成绩': [88.5, 93.2, 90.4],
'性别': ['男', '女', '男']}
df = pd.DataFrame(data)
print(df.info())
输出:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 名字 3 non-null object
1 年龄 3 non-null int64
2 成绩 3 non-null float64
3 性别 3 non-null object
dtypes: float64(1), int64(1), object(2)
memory usage: 224.0+ bytes
None
我们可以使用loc[]方法对DataFrame对象进行筛选数据:
import pandas as pd
data = {'名字': ['小明', '小红', '小刚'],
'年龄': [23, 25, 24],
'成绩': [88.5, 93.2, 90.4],
'性别': ['男', '女', '男']}
df = pd.DataFrame(data)
print(df.loc[df['年龄'] > 23])
输出:
名字 年龄 成绩 性别
1 小红 25 93.2 女
2 小刚 24 90.4 男
我们可以使用sort_values()方法对DataFrame对象进行排序:
import pandas as pd
data = {'名字': ['小明', '小红', '小刚'],
'年龄': [23, 25, 24],
'成绩': [88.5, 93.2, 90.4],
'性别': ['男', '女', '男']}
df = pd.DataFrame(data)
print(df.sort_values(by=['年龄']))
输出:
名字 年龄 成绩 性别
0 小明 23 88.5 男
2 小刚 24 90.4 男
1 小红 25 93.2 女
我们可以使用groupby()方法对DataFrame对象进行分组:
import pandas as pd
data = {'名字': ['小明', '小红', '小刚', '小张', '小李'],
'年龄': [23, 25, 24, 26, 24],
'成绩': [88.5, 93.2, 90.4, 87.3, 91.2],
'性别': ['男', '女', '男', '男', '女']}
df = pd.DataFrame(data)
print(df.groupby(['性别']).mean())
输出:
年龄 成绩
性别
女 24.500000 92.200000
男 24.333333 88.733333
以上就是基本的探索和操作DataFrame对象的介绍了。Pandas提供了极为广泛的数据操作和探索方法,可以帮助我们轻松应对各种数据分析任务。