机器学习
R for Data Science课程的机器学习作业在本课程中,我们涵盖了概念和R库,以帮助我们在训练机器学习模型和各种机器学习算法之前处理数据问题。 R markdown文件包含用于在R中训练的机器学习算法的代码。在培训之前,我们被告知要检查的几件事情包括:
通过多次插补缺失值
找出我们的数据是否偏斜,以及如何通过不同的变换(Box-Cox,Tukey,对数,立方/平方根变换,数据归一化/标准化)解决偏斜问题
有效线性回归的假设,探索性数据分析的描述性统计量等我们尝试了以下机器学习
k-means算法思想较简单,说的通俗易懂点就是物以类聚,花了一点时间在python中实现k-means算法,k-means算法有本身的缺点,比如说k初始位置的选择,针对这个有不少人提出k-means++算法进行改进;另外一种是要对k大小的选择也没有很完善的理论,针对这个比较经典的理论是轮廓系数,二分聚类的算法确定k的大小,在最后还写了二分聚类算法的实现,代码主要参考机器学习实战那本书:
#encoding:utf-8
'''''
Created on 2015年9月21日
author: Z