📜  数据分析-过程

📅  最后修改于: 2020-12-01 05:42:01             🧑  作者: Mango


数据分析是一个收集,转换,清理和建模数据的过程,旨在发现所需的信息。交流如此获得的结果,提出结论并支持决策。有时会使用数据可视化来描绘数据,以便于发现数据中的有用模式。术语“数据建模”和“数据分析”含义相同。

数据分析过程包括以下本质上是迭代的阶段-

  • 数据需求规范
  • 数据采集
  • 数据处理
  • 数据清理
  • 数据分析
  • 通讯

数据分析过程

数据需求规范

分析所需的数据基于问题或实验。根据指导分析的人员的要求,确定作为分析输入所需的数据(例如,人口)。可以指定和获取有关人口的特定变量(例如年龄和收入)。数据可以是数字的或分类的。

数据采集

数据收集是收集有关确定为数据需求的目标变量的信息的过程。重点是确保准确和诚实地收集数据。数据收集可确保收集的数据准确,从而使相关决策有效。数据收集既提供了衡量的基准,也提供了改进的目标。

数据是从各种来源收集的,从组织数据库到网页信息。这样获得的数据可能没有结构化并且可能包含无关的信息。因此,需要对收集到的数据进行数据处理和数据清理。

数据处理

收集的数据必须进行处理或组织以进行分析。这包括根据相关分析工具的要求来构造数据。例如,可能必须将数据放在电子表格或统计应用程序的表中的行和列中。可能必须创建一个数据模型。

数据清理

处理和组织的数据可能不完整,包含重复项或包含错误。数据清理是防止和纠正这些错误的过程。有几种类型的数据清除取决于数据类型。例如,在清理财务数据时,可以将某些总数与可靠的发布数量或定义的阈值进行比较。同样,定量数据方法可用于离群值检测,随后将其排除在分析之外。

数据分析

处理,组织和清理的数据将准备进行分析。各种数据分析技术可用于根据需求理解,解释和得出结论。数据可视化还可以用于检查图形格式的数据,以获得有关数据中消息的其他信息。

统计数据模型(例如相关性,回归分析)可用于识别数据变量之间的关系。这些描述数据的模型有助于简化分析并传达结果。

该过程可能需要额外的数据清理或额外的数据收集,因此这些活动本质上是迭代的。

通讯

数据分析的结果将以用户要求的格式报告,以支持他们的决定和进一步的行动。用户的反馈可能会导致其他分析。

数据分析人员可以选择数据可视化技术(例如表格和图表),以帮助将消息清晰有效地传达给用户。分析工具提供了使用颜色代码和表格和图表格式突出显示所需信息的功能。