kmeans和knn算法的区别是,kmeans和knn中参数k的意义
墨初 知识笔记 47阅读
主要区别
算法步骤
通常使用的是距离按照距离递增次序排序选取与当前点距离最小的k个点
如何确定k
通过交叉验证从选取一个较小的k值开始不断增加k的值然后计算验证集合的方差最终找到一个比较合适的k值。确定前k个点所在类别的出现频率返回前k个点出现频率最高的类别作为当前点的预测分类。 K-Means 原理
算法步骤 随机选取k个质心k值取决于想聚成几类计算样本到质心的距离距离质心近的归为一类分为k类求出分类后的每类的新质心再次计算样本到新质心的距离距离质心距离近的归为一类判断新旧聚类是否相同如果相同就代表已经聚类成功如果没有则循环2-4。
从无序 —> 有序
从K-Means —> KNN
将预测点与所有点的距离进行计算然后保存并排序选出前面K个值看看哪些类别比较多则预测的点就属于哪一类。
KNN也可以用于回归预测

对未知类别属性的数据集中每个点依次执行以下操作
计算已知类别数据集中的点与当前点之间的距离通常使用的是距离按照距离递增次序排序选取与当前点距离最小的k个点
如何确定k
通过交叉验证从选取一个较小的k值开始不断增加k的值然后计算验证集合的方差最终找到一个比较合适的k值。确定前k个点所在类别的出现频率返回前k个点出现频率最高的类别作为当前点的预测分类。 K-Means 原理
随机选取质心——计算各样本点和质心的距离后分类——再次选择新的质心
【扩展】
邻近度函数即距离计算
1曼哈顿距离质心——中位数目标函数——最小化对象到簇质心的距离和
2平方欧几里得距离质心——均值目标函数——最小化对象到簇质心的距离的平方和
3余弦距离质心——均值目标函数——最大化对象与其质心的余弦相似度和
4Bregman散度质心——均值目标函数——最小化对象到簇质心的Bregman散度和。

标签: