• 手把手教你如何利用K均值聚类实现异常值的识别!
    前言在上一期的异常值识别《KNN除了可以做分类和预测,还知道它可以识别异常值吗?》中,我们详细分享了如何使用K近邻的方法完成数据中异常值的查询。但该方法的最大缺陷在于计算复杂度高,对于大数据而言,识别异常数据将会消耗较长的时间。本期将从K均值聚类的角度,帮助大家理解该方法在异常值识别过程中的优势!(本文涉及的代码可以在文末链接中下载)首先,借助于Python随机生成两组二维数据,用于后文的实战。为了能够更加直观地洞察该数据,我们将其绘制成散点图。# 导入第三方包import numpy as npimpor...
  • 手把手教你如何利用K均值聚类实现异常值的识别!
    作者丨刘顺祥来源丨数据分析1480本期将从K均值聚类的角度,帮助大家理解该方法在异常值识别过程中的优势!K均值聚类的介绍K均值聚类算法的思路非常通俗易懂,就是不断地计算各样本点与簇中心之间的距离,直到收敛为止,其具体的步骤如下:从数据中随机挑选k个样本点作为原始的簇中心。计算剩余样本与簇中心的距离,并把各样本标记为离k个簇中心最近的类别。重新计算各簇中样本点的均值,并以均值作为新的k个簇中心。所以,合理的值应该为2,与模拟的两个簇数据相吻合。