📜  数据科学的 7 个基本统计概念

📅  最后修改于: 2022-05-13 01:58:42.373000             🧑  作者: Mango

数据科学的 7 个基本统计概念

数据科学家是最赚钱的职业选择之一,它提供巨大的工作满意度、高得离谱的薪水、全球认可和惊人的成长机会。此外,该职业的工作满意度高达 4.4 分(满分 5 分)。根据哈佛商业评论,数据科学家被定义为 21 世纪最令人向往的职业。机器学习统计成为数据科学家所需的两项核心技能

7-基本统计数据科学概念

统计学就像数据科学的核心,有助于分析、转换和预测数据。因此,如果您愿意在这个令人惊叹的领域取得成功,那么熟悉数据科学的所有相关统计主题非常重要。统计学是一个非常广泛的领域,确定你需要学习的内容可能很困难。为了让您的学习体验顺畅,我们可以为您提供帮助。在这篇博客中,我们将讨论数据科学的七个基本统计概念。本博客中涵盖的主题将为您的统计技能奠定基础。

那么让我们开始吧:

1. 描述性统计

它用于描述数据的基本特征,提供给定数据集的摘要,该数据集可以代表整个人口或人口的样本。它来自计算,包括:

  • 均值:就是通常所说的算术平均值的中心值。
  • 众数:指数据集中出现频率最高的值。
  • 中位数:将有序集合一分为二的中间值。

2. 可变性

可变性包括以下参数:

  • 标准偏差:它是一种统计数据,用于计算数据集与其平均值相比的离散度。
  • 方差:它是指对数据集中数字之间分布的统计量度。一般而言,它意味着与平均值的差异。较大的方差表明数字与平均值或平均值相差甚远。小方差表明数字更接近平均值。零方差表示这些值与给定集合相同。
  • 范围:这被定义为数据集的最大值和最小值之间的差异。
  • 百分位数:它是指统计中使用的度量,表示数据集中给定观察百分比低于该值的值。
  • 四分位数:定义为将数据点分成四等分的值。
  • 四分位距:它测量数据的中间一半。一般来说,它是数据集的中间 50%。

3.相关性

它是衡量两个变量之间关系的主要统计技术之一。相关系数表示两个变量之间线性关系的强度。

  • 大于零的相关系数表示正相关。
  • 小于零的相关系数表示负相关。
  • 相关系数为零表示两个变量之间没有关系

4. 概率分布

它指定所有可能事件的可能性。简单来说,事件是指抛硬币等实验的结果。事件有依赖和独立两种类型。

  • 独立事件:当该事件不受先前事件的影响时,称为独立事件。例如,抛硬币,让我们考虑抛硬币的第一个结果是正面,当再次抛硬币时,结果可能是正面或反面。但这完全独立于一审。
  • 相关事件:当事件的发生依赖于较早的事件时,则称该事件是相关的。例如,当从包含红色和蓝色球的袋子中抽出一个球时。如果抽出的第一个球是红色的,那么第二个球可能是红色或蓝色的;这取决于第一次审判。

独立事件的概率是通过简单地乘以每个事件的概率来计算的,而独立事件的概率是通过条件概率计算的。

5.回归

它是一种用于确定一个或多个自变量与因变量之间关系的方法。回归主要有两种类型:

  • 线性回归:用于拟合解释数字预测变量与一个或多个预测变量之间关系的回归模型。
  • 逻辑回归:它用于拟合一个回归模型,该模型解释了二元响应变量与一个或多个预测变量之间的关系。

6. 正态分布

Normal 用于定义系统中连续随机变量的概率密度函数。标准正态分布有两个参数——上面讨论的均值和标准差。当随机变量的分布未知时,使用正态分布。中心极限定理证明了为什么在这种情况下使用正态分布。

7. 偏见

用统计术语来说,它意味着当一个模型代表一个完整的总体时。这需要最小化以获得预期的结果。

三种最常见的偏见类型是:

  • 选择偏差:选择一组数据进行统计分析的现象,选择的方式是数据不是随机的,导致数据不能代表整个人群。
  • 确认偏差:当执行统计分析的人有一些预定义的假设时,就会发生这种偏差。
  • 时间间隔偏差:它是通过指定特定的时间范围来有利于特定结果而故意引起的。

这些是您需要研究的数据科学的一些统计概念。除此之外,还有一些其他的数据科学统计主题,包括:

  • 中心极限定理
  • 偏差/方差权衡
  • 假设检验
  • 变量之间的关系
  • 协方差

此外,要全面了解数据科学领域,请查看此处,或了解如何成为数据科学家,您可以访问此链接。