非结构化数据是指不符合数据模型且没有易于识别的结构以致于计算机程序不能轻易使用的数据。非结构化数据没有以预定义的方式组织或没有预定义的数据模型,因此不适合主流关系数据库。
非结构化数据的特点:
- 数据既不符合数据模型,也不具有任何结构。
- 数据不能像数据库那样以行和列的形式存储
- 数据不遵循任何语义或规则
- 数据缺少任何特定的格式或序列
- 数据没有易于识别的结构
- 由于缺乏可识别的结构,它不能被计算机程序轻易使用
非结构化数据的来源:
- 网页
- 图像(JPEG、GIF、PNG 等)
- 视频
- 备忘录
- 报告
- Word 文档和 PowerPoint 演示文稿
- 调查
非结构化数据的优点:
- 它支持缺乏正确格式或顺序的数据
- 数据不受固定模式的约束
- 由于没有模式,非常灵活。
- 数据可移植
- 它具有很强的可扩展性
- 它可以轻松处理来源的异质性。
- 这些类型的数据具有各种商业智能和分析应用程序。
非结构化数据的缺点:
- 由于缺乏模式和结构,难以存储和管理非结构化数据
- 由于结构不明确且没有预定义的属性,索引数据很困难且容易出错。因此搜索结果不是很准确。
- 确保数据安全是一项艰巨的任务。
存储非结构化数据面临的问题:
- 它需要大量的存储空间来存储非结构化数据。
- 很难存储视频、图像、音频等。
- 由于结构不清晰,更新、删除和搜索等操作非常困难。
- 与结构化数据相比,存储成本较高
- 索引非结构化数据很困难
存储非结构化数据的可能解决方案:
- 非结构化数据可以转换为易于管理的格式
- 使用内容可寻址存储系统 (CAS) 来存储非结构化数据。
它根据元数据存储数据,并为存储在其中的每个对象分配一个唯一名称。根据内容而不是其位置检索对象。 - 非结构化数据可以以 XML 格式存储。
- 非结构化数据可以存储在支持 BLOB 的 RDBMS 中
从非结构化数据中提取信息:
非结构化数据没有任何结构。所以它不能被常规算法轻易解释。标记和索引非结构化数据也很困难。所以从他们那里提取信息是一项艰巨的工作。以下是可能的解决方案:
- 分类法或数据分类有助于以层次结构组织数据。这将使搜索过程变得容易。
- 数据可以存储在虚拟存储库中并自动标记。例如 Documentum。
- 使用 XOLAP 等应用程序平台。
XOLAP 有助于从电子邮件和基于 XML 的文档中提取信息 - 各种数据挖掘工具的使用
要阅读结构化、半结构化和非结构化数据之间的差异,请参阅以下文章:
- 结构化、半结构化和非结构化数据的区别