📜  python中的基础统计代码(1)

📅  最后修改于: 2023-12-03 15:04:36.045000             🧑  作者: Mango

Python中的基础统计代码

Python是一种流行的编程语言,用于数据科学、机器学习、人工智能等领域。它具有丰富的统计代码库,可协助开发人员将数据转换为可理解的信息。以下是Python中的一些基础统计代码:

pandas库

pandas是Python的一个开源数据分析库。它提供了数据结构,如Series和DataFrame,可轻松存储和操作数据。以下是一些常见的pandas库的用例:

1. 读取CSV文件
import pandas as pd
df = pd.read_csv('filepath.csv')
print(df.head())

此代码片段将读取位于filepath.csv位置的CSV文件,并将其存储为pandas DataFrame。df.head()将打印前五行数据。

2. 分组并计算平均值
import pandas as pd
df = pd.read_csv('filepath.csv')
grouped = df.groupby('column_name')
mean_values = grouped.mean()
print(mean_values)

此代码片段将分组filepath.csv中的数据,并计算列名为'column_name'的列的均值。mean_values将是另一个pandas DataFrame对象。

3. 统计值的数量
import pandas as pd
df = pd.read_csv('filepath.csv')
value_counts = df['column_name'].value_counts()
print(value_counts)

此代码片段将读取filepath.csv中的数据,并统计'column_name'列中每个值的数量。value_counts将是另一个pandas Series对象。

NumPy库

NumPy是一个Python库,用于科学计算和数据分析。它提供了一个n维数组对象,称为ndarray,以及其他用于数值计算的工具。以下是一些常见的NumPy库的用例:

1. 计算均值
import numpy as np
data = np.array([1, 2, 3, 4, 5])
mean_value = np.mean(data)
print(mean_value)

此代码片段将创建一个包含5个值的NumPy数组,然后计算它们的均值。mean_value将返回一个浮点数。

2. 计算标准差
import numpy as np
data = np.array([1, 2, 3, 4, 5])
std_dev = np.std(data)
print(std_dev)

此代码片段将创建一个包含5个值的NumPy数组,然后计算它们的标准差。std_dev将返回一个浮点数。

3. 计算相关系数
import numpy as np
data1 = np.array([1, 2, 3, 4, 5])
data2 = np.array([5, 4, 3, 2, 1])
correlation_coef = np.corrcoef(data1, data2)
print(correlation_coef)

此代码片段将创建两个包含5个值的NumPy数组,并计算它们之间的相关系数。correlation_coef将是一个2x2的NumPy数组。

scipy库

scipy是一个Python库,用于科学计算和数据分析。它提供了许多用于数值计算和优化的模块。以下是一些常见的scipy库的用例:

1. 计算正态分布
import numpy as np
from scipy.stats import norm
data = np.array([1, 2, 3, 4, 5])
normal_dist = norm.pdf(data, np.mean(data), np.std(data))
print(normal_dist)

此代码片段将创建一个包含5个值的NumPy数组,并计算以该数组的均值和标准差为参数的正态分布。normal_dist将是另一个NumPy数组。

2. 计算卡方检验
import numpy as np
from scipy.stats import chi2_contingency
data = np.array([[10, 20], [30, 40]])
chi2_stat, p_value, dof, expected = chi2_contingency(data)
print(chi2_stat, p_value, dof, expected)

此代码片段将创建一个包含2个行和2个列的NumPy数组,并计算其相关的卡方检验统计信息。chi2_stat, p_value, dof和expected将是四个对象。

3. 计算t检验
import numpy as np
from scipy.stats import ttest_ind
data1 = np.array([1, 2, 3, 4, 5])
data2 = np.array([5, 4, 3, 2, 1])
t_stat, p_value = ttest_ind(data1, data2)
print(t_stat, p_value)

此代码片段将创建两个包含5个值的NumPy数组,并计算它们之间的t检验统计信息。t_stat和p_value将是两个对象。

这些都是Python中的一些基础统计代码。这些库和函数可协助开发人员将数据转换为可理解的信息,从而协助他们做出更好的决策。