📜  线性代数的组成部分

📅  最后修改于: 2021-09-22 10:55:35             🧑  作者: Mango

线性代数实际上是数学的一个分支,但数据数学为解决问题提供了数学框架。这个框架特别需要解决物理、工程、数学等相关的问题。它对于学习和理解机器算法非常重要和必不可少,没有它我们就无法全面深入地理解机器学习。理解线性代数并不难。对线性代数的理解将使我们开发出更好的求解方案。

简单来说,如果你想学习机器学习,首先你需要对线性代数有基本的了解。为了表示线性方程,它使用向量和矩阵。下面给出了线性代数的各种组成部分——

  • 数据集和数据文件
  • 正则化
  • 主成分分析
  • 线性回归
  • 奇异值分解
  • 一热编码

让我们详细了解这些组件——

  • 数据集和数据文件 –
    数据集仅表示机器学习中的数据集合。有时,数据以表格形式呈现。在 ML 中,我们基本上在这个表格形式的数据集上拟合模型。拟合模型后,它表示一组类似表格的数字,其中每一行表示操作,每列表示该特定操作的特征。

    所以我们可以得出结论,数据是向量化的,向量基本上是线性代数中的另一种数据结构。

  • 正则化——
    在 ML 中处理数据时,会出现许多问题和问题,这些问题会影响 ML 模型的工作和准确性。为了解决这些问题和问题,使用了多种技术和方法。正则化是用于解决过拟合等问题的技术之一。

    过拟合是出现并导致错误的常见问题之一。因此,该技术基本上用于减少由于在给定训练集上以不适当的方式过度拟合任何函数而引起的错误。

    过拟合是指某些 ML 模型包含一些无用且与实际数据无关的数据点。由于这种过拟合,ML 模型显示的结果不太准确,而且这也使 ML 模型变得困难、复杂性增加并降低了性能。因此,非常需要正则化。

    基本上有两种类型的正则化,即 L1 正则化也称为套索回归和 L2 正则化也称为岭回归。

  • 主成分分析——
    主成分分析是一种工具,仅用于减少维度,即数据特征为 2D 或 3D 格式。这是进行降维的最简单和最简单的方法之一。这种降维有一个缺点,即它降低了结果的准确性。

    但它有几个优点,例如它使大型复杂数据变得非常简单、易于探索、想象或可视化。它还通过降低复杂性来提高 ML 模型的性能。通过将大型变量数据集转换为较小的变量数据集,可以降低这种复杂性。在统计学的数据科学领域中理解它是重要的技术。

  • 线性回归 –
    线性回归也称为多元回归或 OLS(普通最小二乘法)是最简单和最简单的 ML 算法之一,对于用户来说,首先要学习 ML 算法。它是一种统计方法,用于描述和调查一个变量是否依赖于其他变量或它是否独立。

    它表示因变量与一个或多个自变量之间的线性关系,简单的意思是它决定了根据自变量的值连续变化的因变量的值。

    这种线性关系使用回归线显示。它是数学的一个分支,通常处理矩阵和向量。

    为了解决线性回归问题或问题,有很多可用的方法,并且现在正在使用。解决线性回归的最佳方法是使用最小二乘优化。线性回归的主要目的只是通过使用简单的数学公式或标准来确定最合适的拟合线,该拟合线通过连续数据。

  • 奇异值分解 –
    它通常被称为SVD。奇异值分解方法是一种用于降维的技术,但它与任何特定的统计方法无关。它简单地说,矩形矩阵 A 可以分解为矩阵的三个乘积,即正交矩阵 (U)、对角矩阵 (S) 和正交矩阵的转置 (V)。

    这种矩阵分解只是为了减少和使用户更容易地进行矩阵计算。它在数据科学、工程等领域有着广泛的用途。它还提供了一些关于线性变换的基本和重要的几何和理论数据。它被用于许多应用,例如最小二乘线性回归、图像压缩、特征选择、可视化、去噪数据等。

  • 一种热编码 –
    一种热编码也称为虚拟编码,是分类数据最常用的编码方法。它将分类数据转换为可以提供给 ML 算法以提高性能的形式。这种编码方法在用于 ML 算法之前将分类数据转换为数值,因为 ML 算法不能直接处理分类数据。

    因此,这种热编码方法被用作预处理步骤,用于对分类数据进行编码。这里,分类数据或值用于表示数据集中条目或输入的数值。