📜  sidetable github - Python (1)

📅  最后修改于: 2023-12-03 14:47:27.240000             🧑  作者: Mango

sidetable: 一个方便的数据表操作库

sidetable是一个Python库,可以轻松地操作数据表进行各种统计、计算、排序等操作,同时它也是一个对Pandas DataFrame的扩展。

安装

可以通过pip进行安装:

pip install sidetable
快速入门

使用sidetable非常简单,只需将一个Pandas DataFrame传入sidetable的函数中,就可以快速地获得我们需要的统计信息。

import pandas as pd
import sidetable

df = pd.read_csv('data.csv')

# 统计'account_id'列的不同值出现的频次
df.stb.freq(['account_id'])

# 按'gender'和'type'分组进行统计
df.stb.freq(['gender', 'type'])

# 对'amount'列进行基本统计,包括平均数、中位数、标准差等
df.stb.basic_stats(['amount'])

# 根据'account_id'列进行排序
df.stb.sort(['account_id'])

# 显示前五行数据
df.stb.head()
功能丰富

sidetable提供了许多丰富的函数,可以用于数据表的各种操作,包括:

  • 频次统计:统计不同值出现的频次,包括总和、百分比和累积百分比。
  • 基本统计:计算各种基本统计量,包括平均数、中位数、标准差、四分位数等。
  • 分组统计:按指定列进行分组统计,包括各种基本统计量和频次统计。
  • 排序:按指定列进行升序或降序排序。
  • 数据合并:根据指定列对两个数据表进行合并。
返回Markdown格式

sidetable可以返回Markdown格式的结果,方便我们将统计结果直接用于报告或文档中。

# 返回Markdown格式的结果
print(df.stb.freq(['gender']).render())

结果将会如下所示:

| gender | count | percent | cumulative_count | cumulative_percent | |--------|-------|-----------|------------------|--------------------| | M | 240 | 80.534759 | 240 | 80.534759 | | F | 58 | 19.465241 | 298 | 100 |

结语

sidetable是一款功能丰富、方便易用的数据表操作库,可以大大提高我们数据处理的效率和准确性。快来尝试使用吧!