📜  线性代数的组成

📅  最后修改于: 2021-08-27 16:49:42             🧑  作者: Mango

线性代数实际上是数学的一个分支,但是数据的数学为解决问题提供了数学框架。解决与物理,工程,数学等相关的问题特别需要此框架。它对于学习和理解机器算法非常重要且必不可少,否则我们将无法全面而深刻地理解机器学习。理解线性代数并不难。对线性代数的理解将使我们开发更好的求解方案。

简而言之,如果您想学习机器学习,首先需要对线性代数有基本的了解。为了表示线性方程,它使用向量和矩阵。下面给出了线性代数的各个组成部分–

  • 数据集和数据文件
  • 正则化
  • 主成分分析
  • 线性回归
  • 奇异值分解
  • 一种热编码

让我们详细了解这些组件–

  • 数据集和数据文件–
    数据集只是意味着在机器学习中收集数据。有时,数据以表格形式显示。在ML中,我们基本上将模型拟合到此表格形式数据集上。拟合模型后,它表示一组类似表格的数字,其中每一行表示操作,每一列表示该特定操作的特征。

    因此我们可以得出结论,数据是矢量化的,而矢量基本上是线性代数中的另一种数据结构。

  • 正则化–
    在使用ML中的数据时,会出现很多问题和问题,这些问题可能会影响ML模型的工作和准确性。为了解决这些问题,使用了几种技术和方法。正则化是用于解决诸如过度拟合之类的问题的技术之一。

    过度拟合是出现并导致错误的常见问题之一。因此,该技术基本上用于减少由于在给定的训练集上以不适当的方式过度拟合任何功能而引起的错误。

    通过过度拟合,我们的意思是某些ML模型包括一些无用的数据点,这些数据点与实际数据毫无关系。由于这种过度拟合,ML模型显示的结果不太准确,并且使其变得困难,增加了复杂度并降低了ML模型的性能。因此,非常需要正则化。

    基本上有两种类型的正则化,即L1正则化(也称为Lasso回归)和L2正则化(也称为Ridge回归)。

  • 主成分分析–
    主成分分析是一种工具,可以简单地用于将维度(即数据特征)缩减为2D或3D格式。这是进行降维的最简单,最简单的方法之一。这种降维具有一个缺点,即降低了结果的准确性。

    但是它具有几个优点,例如,它使大型复杂数据变得非常简单,易于探索,想象或可视化。它还通过降低复杂度来提高ML模型的性能。通过将大型变量数据集转换为较小的变量,可以降低这种复杂性。理解统计数据科学领域中的重要技术。

  • 线性回归–
    线性回归也称为多元回归或OLS(普通最小二乘)是用户学习ML算法最简单,最容易的ML算法之一。它是一种统计方法,用于描述和调查一个变量是否依赖于另一个变量或是否独立。

    它显示了因变量与一个或多个自变量之间的线性关系,这仅意味着它确定随变量而变化的因变量值会根据自变量的值而连续变化。

    使用回归线显示此线性关系。它是数学的分支,通常处理矩阵和向量。

    为了解决线性回归问题,当今有许多可用方法。解决线性回归的最佳方法是使用最小二乘法优化。线性回归的主要目的只是简单地通过使用简单的数学公式或标准来确定通过连续数据的最合适的拟合线。

  • 奇异值分解 –
    通常将其称为SVD。奇异值分解方法是用于降维的技术,但未与任何特定的统计方法链接。它仅说明矩形矩阵A可以分解为三个矩阵乘积,即正交矩阵(U),对角矩阵(S)和正交矩阵(V)的转置。

    只需进行矩阵分解即可减少并简化用户的矩阵计算。它在数据科学,工程等领域具有广泛的用途。它还提供了一些有关线性变换的重要且至关重要的几何和理论数据。它用于许多应用中,例如最小二乘线性回归,图像压缩,特征选择,可视化,去噪数据等。

  • 一种热编码–
    一种热编码也称为伪编码,是最常用的分类数据编码方法。它将分类数据转换为可以提供ML算法的形式,以实现更好的性能。由于ML算法无法直接处理分类数据,因此在ML算法中使用之前,此编码方法会将分类数据转换为数值。

    因此,该一种热编码方法用作预处理步骤,并用于对分类数据进行编码。此处,分类数据或值用于表示数据集中条目或输入的数值。