📜  敏捷数据科学-敏捷中的数据处理

📅  最后修改于: 2021-01-23 05:49:33             🧑  作者: Mango


在本章中,我们将重点介绍结构化,半结构化和非结构化数据之间的区别。

结构化数据

结构化数据涉及以SQL格式存储在具有行和列的表中的数据。它包括一个关系键,该关系键映射到预先设计的字段中。结构化数据被大规模使用。

结构化数据仅占所有信息学数据的5%到10%。

半结构化数据

Sem结构化数据包括不在关系数据库中的数据。它们包括一些组织属性,使分析更容易。它包括将它们存储在关系数据库中的相同过程。半结构化数据库的示例是CSV文件,XML和JSON文档。 NoSQL数据库被认为是半结构化的。

非结构化数据

非结构化数据占数据的80%。它通常包括文本和多媒体内容。非结构化数据的最佳示例包括音频文件,演示文稿和网页。机器生成的非结构化数据的示例包括卫星图像,科学数据,照片和视频,雷达和声纳数据。

卫星影像

上面的金字塔结构特别关注数据量和数据散布的比例。

准结构化数据在非结构化和半结构化数据之间显示为类型。在本教程中,我们将专注于半结构化数据,这对敏捷方法论和数据科学研究很有帮助。

半结构化数据没有正式的数据模型,但具有通过分析得出的明显的自我描述模式和结构。