先决条件:分类和回归
分类和回归是两个主要的预测问题,通常在数据挖掘和机器学习中处理。
分类是查找或发现模型或函数的过程,该模型或函数有助于将数据分成多个分类类别,即离散值。在分类中,根据输入中给定的一些参数将数据分类到不同的标签下,然后为数据预测标签。
导出的映射函数可以用“IF-THEN”规则的形式来演示。分类过程处理数据可以分为二进制或多个离散标签的问题。
举个例子,假设我们想根据之前记录的一些参数来预测A队赢得比赛的可能性。然后会有两个标签是和否。
图:二元分类和多类分类回归是寻找模型或函数以将数据区分为连续的真实值而不是使用类或离散值的过程。它还可以根据历史数据识别分布移动。因为回归预测模型预测一个数量,因此,模型的技能必须报告为这些预测中的错误
让我们在回归中也举一个类似的例子,我们在前面记录的一些参数的帮助下发现某些特定区域下雨的可能性。然后有一个与下雨相关的概率。
图:日与降雨量的回归(以毫米为单位)
分类与回归的比较:
Parameter | CLASSIFICATION | REGRESSION |
---|---|---|
Basic | Mapping Function is used for mapping of values to predefined classes. | Mapping Function is used for mapping of values to continuous output. |
Involves prediction of | Discrete values | Continuous values |
Nature of the predicted data | Unordered | Ordered |
Method of calculation | by measuring accuracy | by measurement of root mean square error |
Example Algorithms | Decision tree, logistic regression, etc. | Regression tree (Random forest), Linear regression, etc. |