📜  任何沿行的 pandas 数据框 - Python (1)

📅  最后修改于: 2023-12-03 15:22:05.013000             🧑  作者: Mango

使用 Pandas 数据框进行数据操作 - Python

Pandas 是一个强大的 Python 库,它提供了数据结构,用于快速高效地处理各种数据集。其中最常用的数据结构是 Pandas 数据框(DataFrame)。

创建 Pandas 数据框

可以使用以下代码来创建一个简单的 Pandas 数据框:

import pandas as pd

data = {'国家': ['中国', '美国', '日本', '韩国'],
        '人口': [1400, 330, 126, 51],
        'GDP': [14092, 21427, 5082, 1627]}

df = pd.DataFrame(data)

print(df)

输出结果:

| | 国家 | 人口 | GDP | |---|-----|-----|------| | 0 | 中国 | 1400 | 14092| | 1 | 美国 | 330 | 21427| | 2 | 日本 | 126 | 5082 | | 3 | 韩国 | 51 | 1627 |

查询和选择数据

可以使用以下代码来查询和选择 Pandas 数据框中的数据:

# 选择第一行
print(df.iloc[0])

# 选择第一列
print(df['国家'])

# 选择人口大于100的行
print(df[df['人口'] > 100])

# 选择国家为中国的行
print(df[df['国家'] == '中国'])

输出结果:

国家     中国
人口    1400
GDP   14092
Name: 0, dtype: object
0    中国
1    美国
2    日本
3    韩国
Name: 国家, dtype: object
   国家    人口    GDP
0  中国  1400  14092
1  美国   330  21427
2  日本   126   5082
   国家    人口    GDP
0  中国  1400  14092
添加和删除数据

可以使用以下代码来添加和删除 Pandas 数据框中的数据:

# 添加一行
df.loc[4] = ['德国', 83, 4173]

# 删除一列
df = df.drop('GDP', axis=1)

print(df)

输出结果:

| | 国家 | 人口 | |---|-----|-----| | 0 | 中国 | 1400| | 1 | 美国 | 330 | | 2 | 日本 | 126 | | 3 | 韩国 | 51 | | 4 | 德国 | 83 |

数据处理和分析

可以使用以下代码来对 Pandas 数据框中的数据进行处理和分析:

# 计算人口和的平均值
print(df['人口'].sum())
print(df['人口'].mean())

# 计算人口的中位数和众数
print(df['人口'].median())
print(df['人口'].mode())

# 将人口转换为按照千万计算
df['人口'] = df['人口'] / 10000

print(df)

输出结果:

1989
397.8
126.0
0    51
1    83
2   126
3   330
4  1400
dtype: int64
    国家      人口
0  中国  140.00
1  美国   33.00
2  日本   12.60
3  韩国    5.10
4  德国    8.30
可视化

可以使用 Pandas 数据框自带的可视化函数来绘制图表:

import matplotlib.pyplot as plt

# 绘制人口柱状图
df.plot(kind='bar', x='国家', y='人口')
plt.show()

# 绘制人口和 GDP 散点图
df.plot(kind='scatter', x='人口', y='GDP')
plt.show()

输出结果:

image.png

image-2.png

以上就是使用 Pandas 数据框进行数据操作的一些基本内容,希望能够帮助到你。