📅  最后修改于: 2023-12-03 15:19:59.662000             🧑  作者: Mango
K-Means 是一种非常常用的聚类算法,用于将数据集分成预定的K个不同的组或簇。在 Python 中,scikit learn 提供了 K-Means 的实现方法。
在使用之前,需要确保已经安装了 scikit learn。可以通过以下命令安装:
!pip install scikit-learn
首先,我们需要准备一个数据集。这里我们将用一个简单的数据集,其中包含两个特征 x 和 y ,以及它们的标签 label。
import numpy as np
x = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])
y = np.array([0, 0, 0, 1, 1, 1])
有了数据集之后,我们可以使用 scikit learn 中的 KMeans 模块来进行模型训练。模型训练的主要参数有:
下面是一个简单的模型训练过程:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=2, random_state=0).fit(x)
训练完成后,可以查看聚类结果,并进行可视化。
import matplotlib.pyplot as plt
plt.scatter(x[:,0], x[:,1], c=kmeans.labels_, cmap='rainbow')
plt.show()
可以看到,根据 K-Means 聚类的结果,数据集被分为了两个不同的簇。
本文介绍了在 Python 中使用 scikit learn 进行 K-Means 聚类算法的基本流程。通过数据准备、模型训练和结果可视化三个步骤,读者可以快速入门 K-Means 聚类算法。