📜  统计-Logistic回归(1)

📅  最后修改于: 2023-12-03 15:41:18.235000             🧑  作者: Mango

统计-Logistic回归

简介

Logistic回归是一种用于分类问题的统计学习方法,常用于二分类问题。该方法的目标是通过寻找一个适当的函数,将预测变量(自变量)映射到概率输出(因变量),从而预测分类结果。

Logistic回归的优势在于它非常容易实现,计算速度相对较快,泛化能力强,可用于多种领域。

实现过程
准备数据

首先,需要准备好数据,包括预测变量x和因变量y,其中y只能取0或1两个值。

import pandas as pd

data = pd.read_csv('data.csv')
x = data[['x1', 'x2', 'x3']].values
y = data['y'].values
分离训练集和测试集

将数据集分为训练集和测试集,以便测试模型的准确性。

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
训练模型

使用LogisticRegression类训练模型并拟合数据。

from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(x_train, y_train)
预测结果

使用训练好的模型对测试集进行预测。

y_pred = model.predict(x_test)
计算准确率

计算模型的准确率,即在测试集上预测正确的样本比例。

from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
print('模型准确率为:', accuracy)
结论

Logistic回归是一种高效的分类算法,优点是训练速度快,计算简单。在处理大规模数据时效果显著,对于数据特征较少的二分类问题,常常是一个较好的选择。