在数据科学中,主要关注的问题之一是时间复杂度,它在很大程度上取决于功能的数量。在最初的几年中,功能的数量并不是问题。但是今天,数据量和为它们贡献信息的功能呈指数增长。因此,有必要找出方便的措施以减少特征的数量。可以可视化的事物可以轻松地做出决定。特征映射就是这样一种表示特征的过程以及这些特征在图形上的相关性。这确保了特征被可视化并且其相应的信息在视觉上可用。以这种方式,不相关的特征被排除并且仅包括相关的特征。
本文主要关注如何以图形方式表示功能。
曲线G = {V,E,W}是由点或顶点V的集合,一组点对或边E组成的结构,每对点{u,v}由一条线和权重W表示附加到每个边E。数据集中的每个要素都被视为无向图的节点。这些功能中的某些功能是不相关的,需要对其进行处理以检测它们在学习中的相关性,无论是受监督的还是不受监督的。各种方法和阈值确定最佳特征集。在特征选择的上下文中,顶点可以表示特征,边缘可以表示两个特征之间的关系,并且附着到边缘的权重可以表示两个特征之间的关系的强度。两个功能之间的关系是一个可以采用多种方法的领域。
皮尔逊的相关系数确定两个特征之间的相关性,并因此确定它们之间的相关性。如果两个功能提供相同的信息,则其中一个功能可能被认为是多余的,这是因为无论是否同时包括两个功能或其中一个功能,分类最终都会得出相同的结果。
特征的相关矩阵确定各种特征之间的关联。如果两个要素的相关绝对值大于0.67,则表示这些要素的顶点通过添加一条边并赋予它们等于该相关值的权重而相邻。具有关联的特征是潜在的冗余特征,因为它们贡献相同的信息。为了从这些关联的特征中消除冗余特征,我们使用顶点覆盖算法来获得最小的顶点覆盖。最小的顶点覆盖范围为我们提供了最少的最佳特征集,这些特征足以提供以前由所有这些相关特征所贡献的完整信息。这样,我们可以减少功能部件的数量,而不会影响功能部件的信息内容。
因此,最佳的特征集是相关的,没有冗余,可以作为原始数据集提供信息。减少特征数量不仅降低了时间复杂度,而且还提高了分类或聚类的准确性。这是因为数据集中的许多特征很多时候都是完全多余的,并转移了预测。