因子分析是一种特殊的技术,可以将大量的变量减少为几个因子,这被称为数据分解,并且要管理工作表中要显示的数据属于因子分析。它完全是一种统计方法,也可以用来描述观察到的变量和相关变量之间的波动,这可能是因为未观察到的变量的数量可能更少(称为因子) 。
因子分析技术从所有变量中提取最大共同方差,并将它们放入一个共同得分。这是一种用于训练机器学习模型的理论,因此它与数据挖掘非常相关。因子分析技术背后的信念是,有关观测变量之间的相互依赖性的信息可以稍后用于减少数据集中的变量集。
因子分析是检查社会关系,经济状况,饮食模式,心理秤,生物学,心理计量学,人格理论,市场营销,产品管理,运营研究,财务等复杂概念的可变关系的非常有效的工具。它可以帮助您一位研究人员研究了不容易以更快,更快捷的方式直接通过洞穴将大量变量转化为几个易于解释的基本因素的概念。
因子分析的类型:
- 探索性因素分析(EFA):
它用于标识作为联合概念一部分的项目和组项目之间的复合相互关系。分析师无法对因素之间的关系做出任何先前的假设。它还可用于查找大量变量的基本结构。它将大数据减少为更小的汇总变量集。它几乎与确认性因子分析(CFA)相似。相似之处是:
- 评估金额的内部可靠性。
- 检查项目集代表的因素。他们认为这些因素没有关联。
- 调查每个项目的等级/班级。
但是,存在一些共同的差异,其中大多数都与因素的使用方式有关。基本上,EFA是一种数据驱动的方法,它允许所有项目加载所有因素,而在CFA中,您需要指定需要加载哪些因素。如果您不知道可能存在哪些共同因素,那么EFA确实是一个不错的选择。 EFA能够为您的数据生成大量可能的模型,如果研究人员必须指定因素,那是不可能的。如果您对模型的实际外观有所了解,然后再测试关于数据结构的假设,那么在这种情况下,CFA是一种更好的方法。
- 验证性因素分析(CFA):
这是一种测试项目与特定因素相关联的理论的更为复杂(复合)的方法。验证性因素分析使用适当结构的方程模型来测试测量模型,从而对因素进行加载可以评估观察变量和未观察变量之间的关系。
众所周知,结构方程建模方法可以轻松地避免测量误差,并且与最小二乘估计相比,这些方法的限制要少得多,因此可以提供更多的误差承受能力。假设的模型针对实际数据进行测试,分析将证明潜在变量(因子)上观测变量的负载以及潜在变量之间的相关性。
验证性因子分析使分析人员和研究人员可以确定一组观测变量(也称为清单变量)与其基本构造之间是否存在关系。它类似于探索性因素分析。两者之间的主要区别是:
- 只需使用探索性因素分析来探索模式。
- 使用验证性因子分析执行假设检验。
验证性因子分析提供有关代表数据集所需因子数量的标准质量的信息。使用确认性因子分析,您可以定义所需因子的总数。例如,确认性因素分析能够回答诸如“我的一千个问题调查是否能够准确地测量一个特定因素”之类的问题。即使从技术上讲它适用于任何学科,也通常在社会科学中使用。
- 多因素分析:
当您的变量按可变组构造时,将使用这种类型的因素分析。例如,您可能有一个青少年健康调查表,其中包含以下几点:睡眠方式,错误成瘾,心理健康,手机成瘾或学习障碍。多因素分析分两个步骤执行:
- 首先,将对数据的每个部分执行主成分分析。此外,这可以提供有用的特征值,该特征值实际上用于规范化数据集以备将来使用。
- 新形成的数据集将合并成一个独特的矩阵,然后执行全局PCA。
- 广义前驱分析(GPA):
Procrustes分析实际上是一种比较两个构型和形状的近似方法的建议方法,它们最初被开发为等同于Factor Analysis的两个解决方案,该技术实际上是用来扩展GP分析的,从而使两个以上的形状可以在很多方面进行比较。正确对齐形状以实现目标形状。 GPA(广义前兆分析)主要使用几何变换。几何级数为:
- 各向同性缩放
- 反射,
- 回转,
- 转换矩阵以比较数据集。
特征值
当因子分析要生成因子时,每个因子都有一个相关的特征值,这将给出每个因子解释的总方差。
通常,特征值大于1的因子是有用的:Percentage of variation explained by F1 = Eigenvalue of Factor 1/No. of Variables Percentage of variation explained by F2 = Eigenvalue of Factor 2/No. of Variables
# X?向量=? ?向量
X是和以前一样的通用矩阵,它乘以某个向量,并且?是一个特征值。查看方程式,请注意,将矩阵乘以向量时,效果是复制乘以值?的相同向量。这是不寻常的行为,并能获得向量和数量吗?特殊名称:特征向量和特征值。因子负荷
此外,因素是平等创造的。有些因素的权重更大,有些则低。在一个简单的示例中,假设您的汽车公司说Maruti Suzuki正在进行一项调查,其中包括–电话调查,物理调查,google表格等,以提高客户满意度,并且结果显示以下因素负荷:VARIABLE | F1 | F2 | F3 | | | Problem 1 | 0.985 | 0.111 | -0.032 Problem 2 | 0.724 | 0.008 | 0.167 Problem 3 | 0.798 | 0.180 | 0.345
这里 –
F1 –因子1
F2 –因子2
F3 –系数3
对该问题影响最大的因素(因此具有最高的因素负荷)以粗体显示。因子加载与相关系数相似,因为它们的变化范围是-1到1。因子越接近-1或1,它们对变量的影响就越大。
注意:因子加载为0表示不起作用。