数据科学是通过先进技术(机器学习、人工智能、大数据)进行数据分析的研究。它处理大量结构化、半结构化、非结构化数据以提取洞察意义,从中可以设计一种模式,这将有助于做出抓住新商机、改进产品/服务,最终实现业务的决策。生长。
数据科学过程,以理解业务中使用的大数据/海量数据。数据科学的工作流程如下:
- 目标和业务决定的问题——什么是组织目标,组织想要达到什么级别,公司面临什么问题——这些都是正在考虑的因素。基于这些因素考虑哪种类型的数据是相关的。
- 相关数据的收集-相关数据是从各种来源收集的。
- 清理和过滤收集的数据——删除不相关的数据。
- 探索过滤、清理的数据——找到任何隐藏的模式,同步数据,以非技术人员可以理解的图形、图表等形式绘制它们。
- 通过分析数据创建模型——创建模型,验证它。
- 通过解释数据或为业务人员创建模型来可视化发现。
- 帮助商人做出决定并采取措施应对业务增长。
数据挖掘:它是从收集的数据中提取洞察意义、隐藏模式的过程,这些信息有助于做出业务决策,以减少支出和增加收入。
大数据:这是一个术语,涉及通过分析高速生成的大量复杂的、格式多样的数据来提取有意义的数据,这些数据是传统系统无法处理的。
数据扩展的日日:一天的数据量日增加,因为今天的各种数据生产源像一个智能电子设备成倍。根据 IDC(国际数据公司)的报告,到 2020 年,世界上每人每秒创建的新数据将达到1.7 MB 。到 2020 年,全球数据总量将达到 44 ZettaBytes(44 万亿千兆字节)左右,到 2025 年将达到 175 ZettaBytes。可以看出,数据总量每两年翻一番。根据 IDC 报告,全球数据总规模逐年增长如下:
大数据来源:
- 社交媒体:当今世界有很大一部分人口都在使用 Facebook、WhatsApp、Twitter、YouTube、Instagram 等社交媒体。此类媒体上的每项活动,如上传照片、视频、发送消息、发表评论、把喜欢等创建数据。
- 放置在各个地方的传感器: 放置在城市各个地方的传感器,收集温度、湿度等数据。放置在道路旁边的摄像头收集有关交通状况的信息,创建数据。安防摄像头放置在机场、火车站、购物中心等敏感区域,会产生大量数据。
- 客户在其网站上对不同公司的产品或服务的反馈会创建数据。例如,亚马逊、沃尔玛、Flipkart、Myntra 等零售商业网站收集客户对其产品质量、交货时间的反馈。电信公司和其他服务提供商组织寻求客户体验其服务。这些创建了大量数据。
- 物联网设备:连接到互联网的电子设备为其智能功能创建数据,例如智能电视、智能洗衣机、智能咖啡机、智能空调等。各种设备。
例如,智能印刷机 – 它已连接到互联网。连接到网络的多个这样的印刷机可以在彼此内部传输数据。因此,如果有人在一台打印机中加载文件副本,系统会存储该文件内容,另一台保存在另一栋建筑物或另一层楼的打印机可以打印出该文件的硬拷贝。各种印刷机之间的这种数据传输产生数据。 - 在电子商务交易、商业交易、银行和股票市场中,存储的大量记录被认为是大数据的来源之一。通过信用卡、借记卡或其他电子方式付款,所有这些都被记录为数据。
- 车辆中的 GPS 有助于监控车辆的移动,以缩短到达目的地的路径,从而减少燃料消耗和时间消耗。该系统创建了大量的车辆位置和运动数据。