📜  数据挖掘中的小波变换

📅  最后修改于: 2022-05-13 01:56:14.097000             🧑  作者: Mango

数据挖掘中的小波变换

离散小波变换 (DWT) 是一种对线性信号进行变换的信号处理技术。当应用 DWT 时,数据向量 X 被转换为小波系数的数值不同的向量 Xo。两个向量 X 和 Xo 必须具有相同的长度。在将这种技术应用于数据缩减时,我们考虑 n 维数据元组,即 X = (x1,x2,…,xn),其中 n 是数据集关系中存在的属性数。

小波变换可以截断数据,这有助于数据减少。如果我们存储一小部分最强的小波系数,则可以获得原始数据的压缩近似值。例如,可以保留大于某个确定阈值的小波系数。除了用户确定的数据外,小波的系数都设置为0。得到的数据表示非常稀疏。如果它们在小波空间中执行,则运算的计算非常快。该技术还可用于去除数据中的噪声。这减少了平滑数据主要特征的任务,小波变换也使数据清洗非常有效。如果通过应用 DWT 的倒数给出系数集,则可以对原始数据进行近似。

离散傅里叶变换 (DFT) 是一种涉及正弦和余弦的信号处理技术。 DWT 与 DFT 有关,它基于 DFT 的结果。与 DFT 相比,DWT 获得了有损压缩。如果给定数据向量的 DWT 和 DFT 具有相同数量的系数,则 DWT 提供更准确的小波系数和数据占用。与 DFT 相比,DWT 占用的空间更少。 DFT只有一组,但DWT有很多组。最流行的小波变换是Haar-2Daubechies-4 。离散小波变换采用分层金字塔算法,每次迭代将数据减半,数据减半,从而提高了数据的计算速度。

分层金字塔的方法如下:

  • 输入数据向量的长度为 L,L 是一个整数,是 2 的幂。如果长度 L 不是 2 的幂,那么我们可以在输入数据向量的末尾附加零,使其成为 2 的幂。
  • 我们对数据向量的每个变换应用两个函数。第一个函数是执行数据平滑,例如找到数据向量的加权平均值。第二个函数是找到加权差异,这会检索输入向量的重要特征。
  • 我们将这两个函数应用于数据点的 X 轴对 (x2i ,x2i+1)。应用这两个函数后,得到两个长度为 L/2 的不同数据集。第一个数据集是原始数据的低频版本,第二个是它的高频数据集。
  • 这两个函数递归地应用于数据向量,直到获得的结果数据向量的长度为 2。
  • 最后将小波系数分配给变换后的数据向量。