大数据是现代的新石油!!!那些可以分析这些数据以获得可操作见解的公司是新的超级富豪!!!越来越多的公司正在了解这一事实并投资于大数据分析。以至于这个数字在 2017 年达到了 53%,与 2015 年的 17% 相比有了巨大的增长。
但大数据有多种类型。有关键业务数据,这是企业最常分析的数据,以完成其目标、增加收入等。这是我们想到大数据时通常会想到的数据。另一种类型的数据是ROT 数据(冗余过时和琐碎的数据)。顾名思义,这些数据对企业来说根本不重要,可以丢弃。
然后接下来我们有暗数据。这是一个鲜为人知的大数据表亲,没有人听说过,也没有人理解。所以今天,我们将讨论暗数据并尝试了解它在大数据世界中的价值。首先,让我们解决一个基本问题,即什么是暗数据?
什么是暗数据?
大多数公司收集、处理和存储大量数据,这些数据可能有助于他们在未来改进产品和服务。有新的三星手机吗?三星可能会收集您的使用数据。有脸书帐号? Facebook 会收集您的浏览数据、好友列表等。几乎所有公司都是如此。收集完这些数据后,数据分析就会出现!
但是有很大一部分收集到的数据无法使用传统的数据分析进行分析。这些数据被称为暗数据,具有大量未开发的潜力。虽然暗数据可以为公司提供巨大的洞察力,从而带来更高的利润和更多的业务增长,但它大多只是存储在公司档案中,并没有进行太多分析。这是因为捕获、识别和准确分析暗数据非常困难。
此处给出了一些暗数据的常见示例:
- 电子表格
- 查看后被忽略的电子邮件附件和.zip 文件
- 非活动和旧数据库
- 以前的员工详细信息
- 日志文件
- 分析报告和调查数据
- 旧版本的文档仍然可用
- 个人数据添加,如项目笔记
所有这些暗数据的例子都是剩余的项目,不再被认为是重要的。因此,当这些暗数据实际上可以被挖掘以获得非常有价值的见解时,就会被忽略。
暗数据的不同维度是什么?
暗数据基本上分为3个维度,构成不同类型的暗数据。那么现在让我们看看这些是什么:
1. 传统的非结构化数据
世界上近80%的可用数据是传统的非结构化数据。这是暗数据的一部分。世界上显然有很多暗数据!!!传统的非结构化数据基本上是基于文本形式的数据,没有以预定义的方式组织。这可以包括组织中的各种数据,如电子邮件、办公文档、员工消息等,它们没有统一的结构。因此,分析这些数据以获得可操作的见解对于组织来说是一项非常艰巨的工作。
2. 非传统非结构化数据
传统的非结构化数据主要是基于文本的形式,而非传统的非结构化数据则更加复杂!这些数据主要由音频和视频文件等实时应用程序组成。这种形式的暗数据更难以分析,因为实时数据的含义可能会随着时间而改变。而如果不及时分析这些数据,那么它甚至可能会失去价值并变得过时。
3. 深网数据
任何人都不容易访问深层网络中的数据。你真的不能用谷歌看它!!!而这种深网数据是暗数据的一部分,很难访问,更不用说分析了。据估计,深网的大小大约是您通常探索的表面网的500 倍。因此,深网数据中有大量未开发的潜力。
如何处理暗数据以获得最大利益?
如果大部分可用数据是可以为组织提供巨大利益的暗数据,那么问题是如何处理这些暗数据以获得这些利益?这就是黑暗分析的用武之地!!!暗分析涉及捕获暗数据,释放其潜力,然后获得可操作的商业智能。
其中最困难的部分是捕获暗数据。这是因为这些数据不是结构化和统一的,因此需要修改系统来捕获它。这些系统应该知道要寻找什么以及在哪里寻找它。在暗数据被识别和捕获后,使用大数据平台来解锁和了解其秘密同样重要。然后可以使用这些暗数据创建商业智能解决方案,这将提高公司的生产力和收入。
然而,许多公司由于其复杂性而避免处理暗数据。但是,如果公司真的想通过利用暗数据的力量来增加利润并打开业务的新维度,这种态度就需要改变。结合使用结构化数据和非结构化数据,公司真的可以获得难以想象的结果,这将使数据分析的成本变得物超所值!!!