📜  Python | 数据分析的数学运算

📅  最后修改于: 2020-04-17 09:13:03             🧑  作者: Mango

Python是进行数据分析的一种出色语言,主要是因为以数据为中心的Python软件包具有奇妙的生态系统。Pandas是其中的一种,使导入和分析数据更加容易。
Pandas系列可以执行一些重要的数学运算,以简化使用Python的数据分析并节省大量时间。
要获取使用的数据集,请单击此处

s=read_csv("stock.csv", squeeze=True)
#reading csv file and making seires
函数 描述
s.sum() 返回序列中所有值的总和
s.mean() 返回序列中所有值的平均值。等于s.sum()/ s.count()
s.std() 返回所有值的标准差
s.min()或s.max() 返回序列的最小值和最大值
s.idxmin()或s.idxmax() 返回序列的最小值或最大值的索引
s.median() 返回所有值的中位数
s.mode() 返回系列的模
s.value_counts() 返回具有每个值的频率的序列
s.describe() 根据所传递数据的dtype返回一个包含平均值,众数等信息的序列

代码1:

# 导入pandas以读取csv文件
import pandas as pd
# 读取csv文件
s = pd.read_csv("stock.csv", squeeze = True)
# 使用计数功能
print(s.count())
# 使用求和函数
print(s.sum())
# 使用均值函数
print(s.mean())
# 计算均值
print(s.sum()/s.count())
# 使用标准差函数
print(s.std())
# 使用min函数
print(s.min())
# 使用max函数
print(s.max())
# 使用计数功能
print(s.median())
# 使用模式功能
print(s.mode())

输出:

3012
1006942.0
334.3100929614874
334.3100929614874
173.18720477113115
49.95
782.22
283.315
0 291.21

代码2:

# 导入pandas以读取csv文件
import pandas as pd
# 读取csv文件
s = pd.read_csv("stock.csv", squeeze = True)
# 使用描述功能
print(s.describe())
# 使用计数功能
print(s.idxmax())
# 使用idxmin函数
print(s.idxmin())
# 具有值3的元素数
print(s.value_counts().head(3))

输出:

dtype: float64
count    3012.000000
mean      334.310093
std       173.187205
min        49.950000
25%       218.045000
50%       283.315000
75%       443.000000
max       782.220000
Name: Stock Price, dtype: float64
3011
11
291.21    5
288.47    3
194.80    3
Name: Stock Price, dtype: int64

意外的输出和限制:

  1. .sum()、. mean()、. mode()、. median()和其他此类数学运算不适用于字符串或数字值以外的任何其他数据类型。
  2. 字符串系列上的.sum()会产生意外的输出,并通过串联每个字符串返回一个字符串。