读书人

【StatLearn】统计学习中knn算法的实验

发布时间: 2013-11-02 19:41:10 作者: rapoo

【StatLearn】统计学习中knn算法的实验(1)

Problem:

    Develop a k-NN classifier with Euclidean distance and simple votingPerform 5-fold cross validation, find out which k performs the best (in terms of accuracy)Use PCA to reduce the dimensionality to 6, then perform 2) again. Does PCA improve the accuracy
问题:
    设计一个采用欧式距离的的knn分类器应用5-fold进行交叉验证,寻找出最好的k值(从准确度考虑)使用PCA进行降维操作,将维数降至6维,这样应用PCA之后准确率有改善吗?
问题描述:http://archive.ics.uci.edu/ml/datasets/Wine
数据集: http://archive.ics.uci.edu/ml/machine-learningdatabases/wine/wine.data

开发的knn算法通过计算TestData中每一个观察点和TrainningData中的观察点的距离,得到k个最近距离的索引,然后统计其中频次最高的Class,并将这个Class作为该TestData的Class值。

knn算法的Matlab源代码:


通过观察PCA处理之后的特征值,发现只有6个特征值不为0,这样采用PCA降维的方法实现的将源数据13维降为6维之后没有损失能量,所以最后直接进行KNN分类的结果和采用PCA分类的结果是一致的,数据处理的难度却下降了。并且当K=1的时候准确率最高。

MaxAccuracy= 0.7525 when k=1 (KNN&PCA+KNN)

PCA算法处理之后的特征值

1

2

3

4

5

6

7

8

9

10

99202

173

9

5

1

1

0

0

0

……



读书人网 >其他相关

热点推荐