区分支持向量机和逻辑回归
逻辑回归:
它是一种分类模型,用于预测有利于特定事件的几率。优势比代表我们想要预测的阳性事件,例如,样本患乳腺癌的可能性有多大/个人将来患糖尿病的可能性有多大。它使用 sigmoid函数在 0 和 1 之间转换输入值。
逻辑回归的基本思想是适应线性回归,以便估计新条目落入类中的概率。线性决策边界是简单地回归函数的结构的结果,并在函数使用的阈值的分类。 Logistic 回归试图最大化训练数据的条件可能性,它很容易出现异常值。标准化(作为共线性检查)对于确保特征的权重不会超过其他特征的权重也很重要。
支持向量机(SVM):
它是一种非常强大的分类算法,可以最大化类变量之间的边际。这个边界(支持向量)代表分离超平面(决策边界)之间的距离。决策边界具有较大余量的原因是将正负超平面以可调整的偏差方差比例分开。目标是分离,使负样本落入负超平面,正样本落入正超平面。 SVM 不像离群值那样容易出现异常值,因为它只关心最接近决策边界的点。它根据新的正面或负面事件的位置改变其决策边界。
决策边界对于线性 SVM 来说更为重要——整个目标是以智能方式放置线性边界。没有对单个分类的概率解释,至少在原始公式中没有。
因此,关键点是:
- SVM 尝试最大化最近支持向量之间的边际,而逻辑回归最大化后验类概率
- SVM 是确定性的(但我们可以使用 Platts 模型进行概率评分)而 LR 是概率性的。
- 对于内核空间,SVM 更快
S.No. | Logistic Regression | Support Vector Machine |
---|---|---|
1. | It is an algorithm used for solving classification problems. | It is a model used for both classification and regression. |
2. | It is not used to find the best margin, instead, it can have different decision boundaries with different weights that are near the optimal point. | it tries to find the “best” margin (distance between the line and the support vectors) that separates the classes and thus reduces the risk of error on the data. |
3. | It works with already identified identified independent variable. | It works well with unstructured and semi-structured data like text and images. |
4. | It is based on statistical approach. | It is based on geometrical properties of the data. |
5. | It is vulnerable to overfitting. | The risk of overfitting is less in SVM. |
6. | Problems to apply logistic regression algorithm. 1. Cancer Detection: It can be used to detect if a patient has cancer(1) or not(0) 2. Test Score: Predict if the student is passed(1) or not(0). 3. Marketing: Predict if a customer will purchase a product(1) or not(0). | Problems that can be solved using SVM 1. Image Classification 2. Recognizing handwriting 3. Cancer Detection |