使用传统数据库和数据处理工具难以存储和处理的大型复杂数据集的集合被认为是大数据。大数据是从传统和数字来源收集的,经过适当提炼后,可用于研究和分析。随着时间的推移,组织不断壮大,这些组织产生的数据也在呈指数级增长。挑战在于拥有一个可以提供完整数据的单一、一致视图的平台。另一个挑战是组织这些数据,使其有意义并可用作有用的信息。我们周围的一切都在不断地产生大数据。社交媒体网站和数字资源负责产生如此大量的数据。如何传输如此大量的数据——传感器、移动设备和系统就是答案。
这个大数据从何而来?
- 社交媒体: Facebook 和谷歌等大数据公司从我们执行的任何活动中获取数据。其他示例包括 YouTube、Twitter、LinkedIn、博客、slideshare、Instagram、chatter、WordPress、Jive 等。
- 公共网络:这包括来自维基百科、医疗保健服务、世界银行、政府、天气、交通等的数据。
- 档案:这包括任何数据的档案,如医疗记录、客户信函、保险表格、扫描文件等。
- 文档:任何格式的文档,包括 HTML、CSV、PDF、XLS、Word、XML 等,都是大数据的来源。
- 媒体:图像、视频、音频、直播、播客等。
- 数据存储:用于存储数据的各种数据库和文件系统是大数据的来源。
- 机器日志数据:来自服务器的数据、应用程序日志、审计日志、CDR 呼叫详细记录、各种移动应用程序、移动位置等。
- 传感器数据:来自连接到医疗设备、道路摄像机、卫星、交通监控设备、视频游戏、家用电器、空调机组、办公楼等的传感器的数据。
大数据的三个 V
有 3V 定义了大数据的速度、种类和数量
- 多样性:有多种格式来存储数据,例如,数据库、MS-Access、MS-Excel、文本等等。它也可以是pdf、视频或短信的形式。因此,挑战在于安排这些数据使其有意义,并且当数据采用相同格式时会更容易。
- 量:来自多个来源的数据量是巨大的。随着数据量的增加,组织必须重新评估其架构和应用程序。
- 速度:速度是指数据的处理速度。早些时候,昨天的数据被认为是最近的数据,但现在这个东西只在报纸上有效。休息一下,一切都会在几分之一秒内更新。新闻频道、广播、推文、Facebook 帖子和评论都更新得如此之快,以至于几分钟前的数据更新被认为是无用且陈旧的。
大数据是非结构化、结构化和多结构化数据的混合体。
- 结构化数据:具有定义格式并以预定义模式组织的数据称为结构化数据。来自大型机、SQL 服务器、Oracle、DB2、Sybase、Access、Excel、txt 和 Teradata 等传统数据库和存储库的数据被视为结构化数据的示例。关系数据库管理系统只处理这种数据。
- 非结构化数据:未经组织的数据,使用传统数据库或数据模型不容易解释此类数据的数据称为非结构化数据。来自 Chatter、文本分析、博客、推文、评论、点击、标签等社交媒体的数据。
- 多结构数据:多结构数据是未建模的,需要进行组织,虽然可能有模式但被忽略。它可以从人与机器之间的交互中推导出来。这包括新兴市场数据、电子商务和其他第三方数据,如天气、货币兑换、人口统计、面板等。
关于作者:
Vaishnavi Agrawal喜欢通过写作追求卓越,并对技术充满热情。她成功管理和运营个人技术杂志和网站。她目前为Intellipaat 撰稿。她来自班加罗尔,在内容写作和博客领域拥有 5 年的经验。她的作品已发表在与 Hadoop、大数据、商业智能、云计算、IT、SAP、项目管理等相关的各种网站上。