📜  在Python中使用 Pandas 计算统计数据

📅  最后修改于: 2022-05-13 01:55:27.483000             🧑  作者: Mango

在Python中使用 Pandas 计算统计数据

在Python中执行各种复杂的统计操作可以很容易地使用 pandas 简化为单行命令。我们将在这篇文章中讨论一些最有用和最常见的统计操作。我们将使用泰坦尼克号生存数据集来演示此类操作。

Python3
# Import Pandas Library
import pandas as pd
 
# Load Titanic Dataset as Dataframe
dataset = pd.read_csv('train.csv')
 
# Show dataset
# head() bydefault show
# 5 rows of the dataframe
dataset.head()


Python3
# Calculate the Mean
# of 'Age' column
mean = dataset['Age'].mean()
 
# Print mean
print(mean)


Python3
# Calculate Median of 'Fare' column
median = dataset['Fare'].median()
 
# Print median
print(median)


Python3
# Calculate Mode of 'Sex' column
mode = dataset['Sex'].mode()
 
# Print mode
print(mode)


Python3
# Calculate Count of 'Ticket' column
count = dataset['Ticket'].count()
 
# Print count
print(count)


Python3
# Calculate Standard Deviation
# of 'Fare' column
std = dataset['Fare'].std()
 
# Print standard deviation
print(std)


Python3
# Calculate Maximum value in 'Age' column
maxValue = dataset['Age'].max()
 
# Print maxValue
print(maxValue)


Python3
# Calculate Minimum value in 'Fare' column
minValue = dataset['Fare'].min()
 
# Print minValue
print(minValue)


Python3
# Statistical summary
dataset.describe()


输出:

泰坦尼克号数据框

1. 意思:

使用DataFrame/Series.mean()方法计算平均值或平均值。

代码:

Python3

# Calculate the Mean
# of 'Age' column
mean = dataset['Age'].mean()
 
# Print mean
print(mean)

输出:

29.69911764705882

2. 中位数:

使用DataFrame/Series.median()方法计算中值。

代码:

Python3

# Calculate Median of 'Fare' column
median = dataset['Fare'].median()
 
# Print median
print(median)

输出:

14.4542

3.模式:

使用DataFrame.mode()方法计算模式或最频繁的值。

代码

Python3

# Calculate Mode of 'Sex' column
mode = dataset['Sex'].mode()
 
# Print mode
print(mode)

输出:

0    male
dtype: object

4.计数:

使用DataFrame/Series.count()方法计算非空值的计数或频率。

代码:

Python3

# Calculate Count of 'Ticket' column
count = dataset['Ticket'].count()
 
# Print count
print(count)

输出:

891

5.标准偏差:

使用DataFrame/Series.std()方法计算值的标准差。

代码:

Python3

# Calculate Standard Deviation
# of 'Fare' column
std = dataset['Fare'].std()
 
# Print standard deviation
print(std)

输出

49.693428597180905

6.最大:

使用DataFrame/Series.max()方法计算最大值。

代码

Python3

# Calculate Maximum value in 'Age' column
maxValue = dataset['Age'].max()
 
# Print maxValue
print(maxValue)

输出

80.0

7. 分钟:

使用DataFrame/Series.min()方法计算最小值。

代码

Python3

# Calculate Minimum value in 'Fare' column
minValue = dataset['Fare'].min()
 
# Print minValue
print(minValue)

输出:

0.0000

8. 描述:

使用DataFrame/Series.describe()方法总结一般描述性统计数据。

Python3

# Statistical summary
dataset.describe()

输出:

泰坦尼克号数据框描述