什么是数据分析?
在进入“数据分析”这个术语之前,让我们先讨论一下“分析”这个术语。外行语言(简单英语)的分析是回答“如何?”的过程。和“为什么?”。例如,XYZ 公司上一季度的增长情况如何?或者为什么去年夏天 XYZ 公司的销售额下降了?因此,为了回答这些问题,我们采用了我们已经拥有的数据。从中,我们过滤掉我们需要的东西。过滤后的数据是我们已经收集的较大块的最终数据集,并成为数据分析的目标。或者有时我们会获取多个数据集并对其进行分析以找到一个模式。例如,以连续三年的夏季销售数据为例。找出去年夏天销售量下降是因为我们销售的任何特定产品还是只是一个反复出现的问题。一切都是为了寻找一种模式。我们对过去已经发生的事情或事件进行分析。考虑到所有这些信息,我们可以将数据分析定义为:
The process of studying the data to find out the answers to how and why things happened in the past. Usually, the result of data analysis is the final dataset, i.e a pattern, or a detailed report that you can further use for Data Analytics.
通过数据分析差异化定义数据分析
因此,正如我们上面所讨论的,数据分析的结果是最终的数据集,即可以进一步用于数据分析的模式或详细报告。那么数据分析是什么意思呢?完成数据分析后,您就拥有了所有的结果、报告和数据集。现在,接下来呢?接下来,您将朝着决策迈出一步,这一步被称为“数据分析”。在数据分析中,读取数据集或数据分析的结果并对其进行处理,以找出未来可能发生的事件。
例子:
假设您拥有一家企业并销售日常用品。你的商业模式很简单。您从供应商处购买产品并将其出售给客户。让我们假设您的业务面临的最大挑战是在给定时间找到合适数量的库存。你不能储存多余的日常用品,因为它们很容易腐烂,如果它们变坏了你就不能卖掉它们,从而给你带来直接的损失。同时,您不能缺货,因为这可能会导致潜在客户的流失。但是数据分析可以帮助您预测客户在特定时间的实力。使用该结果,您可以充分储存您的供应品,从而最大限度地减少损失。简而言之,使用数据分析,您可以找出一年中您的商店客户最少或最多的时间。使用此信息,您可以相应地储存您的用品。
为什么要进行数据分析?
“数据无处不在”,在表格、社交媒体平台、产品评论和反馈中无处不在。在这个最新的信息时代,它以惊人的速度创建,当数据被正确分析时,它可以成为公司最有价值的资产。 “为了发展您的业务,甚至在您的生活中成长,有时您需要做的就是分析! ” 如果您的业务没有增长,那么您必须回顾并认识到自己的错误并重新制定计划,而不要重蹈覆辙。即使您的业务正在增长,那么您也必须期待使业务增长更多。您需要做的就是分析您的业务数据和业务流程。
数据分析方法的类型
主要的数据分析方法有:
- 描述性分析
- 诊断分析
- 预测分析
- 规范性分析
- 统计分析
1. 描述性分析
描述性分析查看数据并分析过去的事件,以了解如何处理未来的事件。它查看过去的表现,通过挖掘历史数据来了解过去的成功或失败的原因。几乎所有的管理报告,如销售、营销、运营和财务都使用这种类型的分析。
示例:我们以 DMart 为例,我们可以查看产品的历史,通过查看产品的销售趋势来了解哪些产品销售量更大或需求量大,并根据他们的分析进一步做出决定为来年大量储存该物品。
2. 诊断分析
诊断分析与描述性分析密切相关。描述性分析找出过去发生的事情,另一方面,诊断分析找出发生这种情况的原因或当时采取了哪些措施,或者发生的频率。它基本上给出了对特定事件的详细解释通过了解行为模式的情景。
示例:让我们再次以 Dmart 为例。现在,如果我们想知道为什么某个特定产品的需求量很大,是因为他们的品牌还是因为质量。使用诊断分析可以轻松识别所有这些信息。
3. 预测分析
无论我们从描述性分析和诊断分析中获得什么信息,我们都可以使用这些信息来预测未来的数据。它基本上找出了未来可能发生的事情。现在,当我说未来的数据并不意味着我们已经成为算命先生时,通过查看过去的趋势和行为模式,我们预测它可能会在未来发生。
示例:最好的示例是亚马逊和 Netflix 推荐系统。您可能已经注意到,每当您从亚马逊购买任何产品时,在支付端它都会向您显示一个推荐,说明购买此产品的客户也购买了此产品,该推荐是基于客户过去的购买行为。通过查看客户过去的购买行为,分析师会在每种产品之间建立关联,这就是它在您购买任何产品时显示推荐的原因。
下一个示例是 Netflix,当您在 Netflix 上观看任何电影或网络连续剧时,您可以看到 Netflix 为您提供了很多推荐的电影或网络连续剧,该推荐基于过去的数据或过去的趋势,它识别出哪部电影或系列获得了很多公众兴趣,并在此基础上创建了推荐
4. 规范性分析
这是一种高级的预测分析方法。现在,当您预测某事或开始跳出框框思考时,您肯定会有很多选择,然后我们对哪个选项实际可行感到困惑。规范性分析有助于找到实现或发挥作用的最佳选择。作为预测分析预测未来数据,另一方面,规范分析有助于实现我们所预测的任何事情。说明性分析是最高级别的分析,用于通过查看描述性、诊断性和预测性数据来选择最佳解决方案。
示例:最好的示例是谷歌的自动驾驶汽车,通过查看过去的趋势和预测数据,它可以识别何时转弯或何时减速,这与人类驾驶员的工作方式非常相似。
5. 统计分析
统计分析是一种统计方法或技术,用于分析数据集,以便通过使用一些视觉辅助工具概括其重要和主要特征。这种方法可用于收集有关以下数据方面的知识:
- 数据的主要特征或特征。
- 变量及其关系。
- 找出可以在我们的问题中使用的重要变量。
数据分析过程
数据分析能够将原始可用数据转换为对您的业务和决策有意义的见解。虽然有几种不同的方法可以收集和解释这些数据,但大多数数据分析过程都遵循相同的六个一般步骤。
- 指定数据要求
- 收集数据
- 清理和处理数据
- 分析数据
- 解释
- 报告
1. 指定数据要求
在数据分析过程的第 1 步中,定义您希望通过数据回答的内容。这通常源于一个或多个业务问题,例如
- 我们如何在不牺牲质量的情况下降低生产成本?
- 客户如何看待我们的品牌?
- 我们如何利用现有资源增加销售机会?
2. 收集数据
- 查找您的来源:确定可以从现有来源收集哪些信息,以及您需要在其他地方找到哪些信息。
- 标准化收藏:提前创建文件存储和命名系统。
- 保持跟踪:将数据组织在带有日期的日志中,并随时添加任何源注释。
数据在哪里收集? Internal Sources External SourcesCustomer service data Social media APIs Marketing analytics Google public data Sales statistics Public government data Human resource data Global finance data Google trends Official research statistics
3. 清理和处理数据
通过识别和消除任何错误或损坏,确保您的数据正确且可用。
- 监控错误:记录并查看大多数错误的来源趋势。
- 验证准确性:研究和投资可让您实时清理数据的数据工具。
- Scrub for Duplicate Data :识别并删除重复数据,以便您在分析过程中节省时间。
- 删除所有格式:通过删除任何格式样式来标准化数据的外观。
4. 分析数据
不同的数据分析技术使您能够根据您的业务问题或问题来理解、解释和得出结论。 Descriptive Analysis Inferential AnalysisAnalysis of data that helps show variables in a meaningful way and find patterns. Exploring the relationship between multiple variables to make predictions. Measure of Tendency: The central position of a frequency distribution for a group of data. Correlation: Describe the relationship between two variables. Measure of Spread: Summarising a group of data by describing how to spread out the scores are. Regression: Shows or predicts the relationship between two variables. Analysis of Variance: Tests the extent to which two groups differ.
5. 解释
在解释数据结果时,请问自己以下关键问题:
- 数据能回答你的问题吗?如何?
- 数据是否可以帮助您抵御任何反对意见?如何?
- 有没有你没有考虑过的限制或角度?
6. 报告
数据分析可用于向不同的人报告:
- 主要合作者或客户
- 行政和商业领袖
- 技术主管
- 保持简洁:以一种便于不同受众浏览的方式组织数据,以找到与他们最相关的信息。
- 使其可视化:使用表格和图表等数据可视化技术来清晰地传达信息。
- 包括执行摘要:这使某人可以预先分析您的发现并利用您最重要的观点来影响他们的决定。
数据分析工具
数据分析工具使用户更容易处理和操作数据,分析数据集之间的关系和相关性,还有助于识别模式和趋势以进行解释。以下是一些流行工具的列表,简要说明:
1. SAS
SAS 是 SAS 研究所开发的一种编程语言,用于执行高级分析、多变量分析、商业智能、数据管理和预测分析。它是用 C 语言编写的专有软件,其软件套件包含 200 多个组件。它的编程语言被认为是高级的,因此更容易学习。但是,SAS 是为非常特定的用途而开发的,并且并非每天都将强大的工具添加到已经存在的广泛集合中,从而使其对于某些应用程序的可扩展性降低。然而,它拥有这样一个事实:它可以分析来自各种来源的数据,还可以将结果直接写入 Excel 电子表格。
2.微软Excel
它是一个重要的电子表格应用程序,可用于记录费用、绘制数据图表以及执行简单的操作和查找,或者生成数据透视表,以提供包含重要数据发现的大型数据集的所需汇总报告。它是用 C#、C++ 和 .NET Framework 编写的,其稳定版本于 2016 年发布。它涉及使用称为 Visual Basic 的宏编程语言来开发应用程序。它具有各种内置功能,可满足各种统计、财务和工程需求。它是电子表格应用程序的行业标准。
3.R _
它是执行复杂统计计算和图形的领先编程语言之一。它是一种免费的开源语言,可以在各种 UNIX 平台、Windows 和 macOS 上运行。它还具有易于使用的命令行界面。但是,学习起来很困难,尤其是对于没有编程知识的人来说。但是,它对于构建统计软件非常有用,对于执行复杂的分析非常有用。它有超过 11,000 个包,我们可以按类别浏览包。这些软件包也可以与大数据组装在一起,大数据是改变各种组织对非结构化数据的看法的催化剂。
4.Python
它是一种功能强大的高级编程语言,用于通用编程。 Python支持结构化和函数式编程方法。其广泛的库集合使其在数据分析中非常有用。了解 Tensorflow、Theano、Keras、Matplotlib、Scikit-learn 和 Keras 可以让您更接近成为机器学习工程师的梦想。 Python中的一切都是一个对象,这个属性使它在开发人员中非常流行。
5. Tableau 公共
Tableau Public 是由上市公司“Tableau Software”开发的免费软件,允许用户连接到任何电子表格或文件并创建交互式数据可视化。它还可用于创建地图、仪表板以及实时更新,以便在网络上轻松展示。结果可以通过社交媒体网站或直接与客户共享,使用起来非常方便。
6.RapidMiner
RapidMiner 是由“RapidMiner Inc”开发的一个极其通用的数据科学平台。该软件强调闪电般快速的数据科学能力,并为数据准备和机器学习、深度学习、文本挖掘和预测分析技术的应用提供集成环境。它还可以处理许多数据源类型,包括 Access、SQL、Excel、Tera 数据、Sybase、Oracle、MySQL 和 Dbase。
7. 刀
Knime,Konstanz Information Miner 是一款免费的开源数据分析软件。它还用作报告和集成平台。它涉及通过模块化数据管道内衬集成用于机器学习和数据挖掘的各种组件。它是用Java编写的,由 KNIME.com AG 开发。可在Linux、OS X、Windows等多种操作系统上运行。目前有 500 多家公司将此软件用于运营目的,其中一些公司包括 Aptus Data Labs 和 Continental AG。