KNN算法主要用于分类问题。
它的核心思想是:
给定一个预测目标
计算预测目标和所有样本之间的距离或者相似度
选择距离最近的前K个样本
通过投票来决定分类
sklearn包中自带的iris样本数据集,这里用这个数据集来练习knn算法。
1、iris数据集的介绍
参考:这一块内容昨天看了一篇博文,忘记地址了。
数据集内包含 3 类共 150 条记录,每类各 50 个数据。
每条记录都有 4 个特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。
鸢尾花有三个品种:iris-setosa, iris-ve