特征缩放是一种在固定范围内标准化数据中存在的独立特征的技术。它是在数据预处理期间执行的。
在职的:
给定具有以下特征的数据集-年龄,工资,BHK公寓,其数据大小为5000人,每个人都具有这些独立的数据特征。
每个数据点标记为:
- 1级-是(指具有给定年龄,薪水和BHK公寓功能价值的人可以购买该物业)
- Class2- NO (具有给定年龄,薪水和BHK公寓功能值的人无法购买该物业)。
通过使用数据集训练模型,人们旨在建立一个模型,该模型可以预测是否可以购买具有给定特征值的房产。
训练模型后,可以创建带有给定数据集中的数据点的N维(其中N是数据集中存在的要素数量)图。下图是该模型的理想表示。
如图所示,星形数据点属于Class1 –是,圆圈表示Class2 –没有标签,并且使用这些数据点对模型进行了训练。现在给出了一个新的数据点(如图所示的钻石),它对于上述3个要素(年龄,工资,BHK公寓)具有不同的独立值。该模型必须预测该数据点是属于“是”还是“否”。
新数据点类别的预测:
该模型从每个类组的质心计算此数据点的距离。最后,该数据点将属于该类,该类与该类具有最小的质心距离。
可以使用以下方法计算质心和数据点之间的距离:
- 欧几里得距离:它是每个类的数据点和质心的坐标(特征值–年龄,工资,BHK公寓)之间的差平方和的平方根。毕达哥拉斯定理给出了这个公式。
其中x是数据点值,y是质心值,k是no。特征值的示例,例如:给定数据集的k = 3 - 曼哈顿距离:以每个类的数据点和质心的坐标(特征值)之间的绝对差之和来计算。
- Minkowski Distance:这是上述两种方法的概括。如图所示,可以使用不同的值来找到r。
功能扩展需求:
给定的数据集包含3个功能-年龄,工资,BHK公寓。考虑年龄范围为10-60,工资为1 Lac-40 Lacs,BHK为1-5。所有这些功能彼此独立。
假设类别1的质心为[40,22 Lacs,3],要预测的数据点为[57,33 Lacs,2]。
使用曼哈顿方法,
Distance = (|(40 - 57)| + |(2200000 - 3300000)| + |(3 - 2)|)
可以看出,在预测给定数据点的类别时,薪水特征将主导所有其他特征,并且由于所有特征彼此独立,即一个人的薪水与他/她的年龄或与他/她持平的要求无关。她有。这意味着模型将始终预测错误。
因此,解决此问题的简单方法是功能缩放。特征缩放算法将在固定范围内(例如[-1,1]或[0,1])缩放年龄,工资,BHK。然后,没有任何功能可以主导其他功能。