📜  ML-通过统计数据了解数据(1)

📅  最后修改于: 2023-12-03 15:32:55.026000             🧑  作者: Mango

ML-通过统计数据了解数据

机器学习是一项准确预测未来的技术,但它的基础是从过去的数据中发现规律。了解数据的统计特征是机器学习中常用的初始步骤。在这篇文章中,我们将讨论如何通过统计数据了解数据的主题,让程序员更好的理解机器学习中的数据预处理过程。

数据的类型

在进行统计数据分析之前,我们需要了解数据的类型。最常见的数据类型有:

  1. 数值型数据: 例如身高、体重、年龄等连续值数据。

  2. 类别型数据: 例如血型、性别、国籍等离散值数据。

  3. 顺序型数据: 例如星级评分、顾客满意度等有序离散值数据。

使用正确的方法处理数据类型是非常重要的,因为不同的处理方法将影响您的结果。

描述性统计

描述性统计是一种从数据中提取信息的方法,包括:均值、中位数、方差、标准差、偏度和峰度等等。下面分别介绍它们的含义:

  1. 均值 (Mean) :表示数据的平均值,是数据分布的中心点。均值等于所有数据总和除以数据的数量。

  2. 中位数 (Median):表示数据中间的值,是一个有序数组中间位置上的值。

  3. 方差 (Variance):用于描述数据的离散程度。方差越大,说明数据的分布越分散。方差等于每个数值与平均值的差值的平方的平均值。

  4. 标准差 (Standard Deviation):是方差的平方根,表示数据偏离平均值的程度。标准差越小,数据聚集程度越高。

  5. 偏态 (Skewness):衡量数据分布偏斜程度的指标。正偏斜表示数据出现在左侧,负偏斜表示数据出现在右侧。

  6. 峰度 (Kurtosis):衡量数据分布的陡峭程度。峰度描述了数据分布的尖锐程度。

统计数据可视化

统计数据可视化是一种展示数据模式的方法,它使程序员更容易地理解数据并检测数据中的异常值。最常用的统计数据可视化包括:

  1. 直方图:用于显示数据的分布情况。

  2. 箱线图:用于比较不同数据分布之间的差异。箱线图通常会显示一组数据的中位数、四分位数和数据的离群值。

  3. 散点图:用于显示两个数值变量之间的关系。

通过统计数据了解数据是机器学习中很重要的一步。为了更好的理解机器学习的数据预处理过程,程序员需要掌握常用的统计数据类型和方法。此外,数据可视化也是一个强大的工具,可以帮助程序员更好的理解数据,并从中发现有价值的信息。