数据压缩简介
在本文中,我们将讨论数据压缩的概述,并讨论其方法说明,还将涵盖概述部分熵。让我们一一讨论。
概述 :
一个重要的研究领域是数据压缩。它涉及以紧凑形式存储信息的艺术和科学。人们会注意到许多压缩包用于压缩文件。压缩降低了存储成本,提高了算法速度,降低了传输成本。压缩是通过去除冗余来实现的,即重复不必要的数据。编码冗余是指由于次优编码技术导致的冗余数据。
方法说明:
- 为了说明这种方法,我们假设有六个符号,并且使用二进制代码为每个符号分配一个唯一的地址,如下表所示
- 二进制码需要至少三位来编码六个符号。还可以观察到,二进制代码 110 和 111 根本没有使用。这清楚地表明二进制代码效率不高,因此需要一个有效的代码来分配唯一的地址。
Symbols | W1 | W2 | W3 | W4 | W5 | W6 |
---|---|---|---|---|---|---|
Probability | 0.3 | 0.3 | 0.1 | 0.1 | 0.08 | 0.02 |
Binary code | 000 | 001 | 010 | 011 | 100 | 101 |
- 一种有效的代码是使用最少数量的比特来表示任何信息的代码。二进制码的缺点是它是固定码;霍夫曼代码更好,因为它是可变代码。
- 编码技术与熵和信息内容的概念有关,这些概念被称为信息论。信息论还处理消息中存在的不确定性,称为信息内容。信息内容如下
log2 (1/pi) or -log2 pi .
熵:
- 熵被定义为信息中存在的有序性的度量。给出如下:
H= - ∑ pi log2 pi
- 熵是一个正数,它指定编码信息所需的最小位数。因此,编码冗余被给出为用于编码的平均比特数与熵之间的差异。
coding redundancy = Average number of bits - Entropy
- 通过消除冗余,可以以紧凑的方式存储任何信息。这是数据压缩的基础。