📅  最后修改于: 2023-12-03 15:22:05.013000             🧑  作者: Mango
Pandas 是一个强大的 Python 库,它提供了数据结构,用于快速高效地处理各种数据集。其中最常用的数据结构是 Pandas 数据框(DataFrame)。
可以使用以下代码来创建一个简单的 Pandas 数据框:
import pandas as pd
data = {'国家': ['中国', '美国', '日本', '韩国'],
'人口': [1400, 330, 126, 51],
'GDP': [14092, 21427, 5082, 1627]}
df = pd.DataFrame(data)
print(df)
输出结果:
| | 国家 | 人口 | GDP | |---|-----|-----|------| | 0 | 中国 | 1400 | 14092| | 1 | 美国 | 330 | 21427| | 2 | 日本 | 126 | 5082 | | 3 | 韩国 | 51 | 1627 |
可以使用以下代码来查询和选择 Pandas 数据框中的数据:
# 选择第一行
print(df.iloc[0])
# 选择第一列
print(df['国家'])
# 选择人口大于100的行
print(df[df['人口'] > 100])
# 选择国家为中国的行
print(df[df['国家'] == '中国'])
输出结果:
国家 中国
人口 1400
GDP 14092
Name: 0, dtype: object
0 中国
1 美国
2 日本
3 韩国
Name: 国家, dtype: object
国家 人口 GDP
0 中国 1400 14092
1 美国 330 21427
2 日本 126 5082
国家 人口 GDP
0 中国 1400 14092
可以使用以下代码来添加和删除 Pandas 数据框中的数据:
# 添加一行
df.loc[4] = ['德国', 83, 4173]
# 删除一列
df = df.drop('GDP', axis=1)
print(df)
输出结果:
| | 国家 | 人口 | |---|-----|-----| | 0 | 中国 | 1400| | 1 | 美国 | 330 | | 2 | 日本 | 126 | | 3 | 韩国 | 51 | | 4 | 德国 | 83 |
可以使用以下代码来对 Pandas 数据框中的数据进行处理和分析:
# 计算人口和的平均值
print(df['人口'].sum())
print(df['人口'].mean())
# 计算人口的中位数和众数
print(df['人口'].median())
print(df['人口'].mode())
# 将人口转换为按照千万计算
df['人口'] = df['人口'] / 10000
print(df)
输出结果:
1989
397.8
126.0
0 51
1 83
2 126
3 330
4 1400
dtype: int64
国家 人口
0 中国 140.00
1 美国 33.00
2 日本 12.60
3 韩国 5.10
4 德国 8.30
可以使用 Pandas 数据框自带的可视化函数来绘制图表:
import matplotlib.pyplot as plt
# 绘制人口柱状图
df.plot(kind='bar', x='国家', y='人口')
plt.show()
# 绘制人口和 GDP 散点图
df.plot(kind='scatter', x='人口', y='GDP')
plt.show()
输出结果:
以上就是使用 Pandas 数据框进行数据操作的一些基本内容,希望能够帮助到你。