📜  半结构化和非结构化数据的大对象 (LOB)

📅  最后修改于: 2021-09-08 15:59:04             🧑  作者: Mango

半结构化数据

半结构化数据是不符合数据模型但具有一定结构的数据。它缺乏固定或僵化的模式。数据并不驻留在合理的数据库中,但具有一些使其更易于分析的组织属性。通过一些过程,我们可以将它们存储在关系数据库中。

半结构化数据的特点:

  • 数据不符合数据模型,但具有某种结构。
  • 数据不能像数据库那样以行和列的形式存储
  • 半结构化数据包含标签和元素(元数据),用于对数据进行分组并描述数据的存储方式
  • 相似的实体组合在一起并按层次结构组织
  • 同一组中的实体可能具有或可能不具有相同的属性或特性
  • 不包含足够的元数据,这使得数据的自动化和管理变得困难
  • 组中相同属性的大小和类型可能不同
  • 由于缺乏明确定义的结构,它不能被计算机程序轻易使用

对半结构化数据使用 LOB

XML 文档或文字处理器文件等文档文件是半结构化数据的示例。这些类型的文档包含由应用程序解释或处理的逻辑结构中的数据,并且在存储在数据库中时不会分解为更小的逻辑单元。

那些具有半结构化数据的应用程序通常使用大量字符数据。为了存储和操作此类数据,可以使用字符大对象(CLOB)和国家字符大对象(NCLOB)数据类型。

二进制文件对象( BFILE数据类型)也可用于存储字符数据。 BFILES还可用于将只读数据从操作系统加载到CLOBNCLOB实例中,以便您可以在应用程序中操作数据。

非结构化数据

非结构化数据是指不符合数据模型且没有易于识别的结构以致于计算机程序不能轻易使用的数据。非结构化数据没有以预定义的方式组织或没有预定义的数据模型,因此不适合主流关系数据库。

非结构化数据的特点:

  • 数据既不符合数据模型,也不具有任何结构。
  • 数据不能像数据库那样以行和列的形式存储
  • 数据不遵循任何语义或规则
  • 数据缺少任何特定的格式或序列
  • 数据没有易于识别的结构
  • 由于缺乏可识别的结构,它不能被计算机程序轻易使用

对非结构化数据使用 LOB

非结构化数据无法分解为标准组件。例如,一个员工的数据可以被分隔/显示为一个名字,存储为字符串; ID 号,存储为整数,员工的工资等,而另一方面,一张照片由一长串 1 和 0 组成。这些位被操纵以将像素切换为开和关,以便我们可以看到显示的图片,但它们没有分解成任何结构用于数据库存储。

此外,图形图像、静止视频剪辑、运动视频和声音波形等非结构化数据的大小往往很大,而典型的员工记录可能等于几百字节,而即使是小尺寸的多媒体数据也可能等于数千字节。倍大。

用于大量非结构化数据的理想数据类型包括BLOB数据类型(二进制大对象)和BFILE数据类型(二进制文件对象)。