重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
k-近邻算法是基本的机器学习算法,算法的原理非常简单:
成都创新互联 - 资阳托管服务器,四川服务器租用,成都服务器租用,四川网通托管,绵阳服务器托管,德阳服务器托管,遂宁服务器托管,绵阳服务器托管,四川云主机,成都云主机,西南云主机,资阳托管服务器,西南服务器托管,四川/成都大带宽,成都机柜租用,四川老牌IDC服务商输入样本数据后,计算输入样本和参考样本之间的距离,找出离输入样本距离最近的k个样本,找出这k个样本中出现频率最高的类标签作为输入样本的类标签,很直观也很简单,就是和参考样本集中的样本做对比。下面讲一讲用python实现kNN算法的方法,这里主要用了python中常用的numpy模块,采用的数据集是来自UCI的一个数据集,总共包含1055个样本,每个样本有41个real的属性和一个类标签,包含两类(RB和NRB)。我选取800条样本作为参考样本,剩下的作为测试样本。
下面是分类器的python代码:
''' kNNClassify(inputAttr, trainSetPath = '', lenOfInstance = 42, startAttr = 0, stopAttr = 40, posOfClass = 41, numOfRefSamples = 5)函数 参数: inputAttr:输入的属性向量 trainSetPath:字符串,保存训练样本的路径 lenOfInstance:样本向量的维数 startAttr:属性向量在整个样本向量中的起始下标 stopAttr:属性向量在整个样本向量中的终止下标 posOfClass:类标签的在整个样本向量中的下标 numOfClSamples:选出来进行投票的样本个数 返回值: 类标签 ''' def kNNClassify(inputAttr, trainSetPath = '', lenOfInstance = 42, startAttr = 0, stopAttr = 40, posOfClass = 41, numOfRefSamples = 5): fr = open(trainSetPath) strOfLine = fr.readline() arrayOfLine = numpy.array([0.] * lenOfInstance) refSamples = numpy.array([[-1., 0.]] * numOfRefSamples) #找出属性中的大值和最小值,用于归一化 maxAttr, minAttr = kNNFunction.dataNorm(trainSetPath = trainSetPath, lenOfInstance = lenOfInstance) maxAttr = maxAttr[(numpy.array(range(stopAttr - startAttr + 1)) + numpy.array([startAttr] * (stopAttr - startAttr + 1)))] minAttr = minAttr[(numpy.array(range(stopAttr - startAttr + 1)) + numpy.array([startAttr] * (stopAttr - startAttr + 1)))] attrRanges = maxAttr - minAttr inputAttr = inputAttr[(numpy.array(range(stopAttr - startAttr + 1)) + numpy.array([startAttr] * (stopAttr - startAttr + 1)))] inputAttr = (inputAttr - minAttr) / attrRanges #归一化 #将字符串转换为向量并进行计算找出离输入样本距离最近的numOfRefSamples个参考样本 while strOfLine != '' : strOfLine = strOfLine.strip() strOfLine = strOfLine.split(';') abandonOrNot = False for i in range(lenOfInstance) : if strOfLine[i] == 'RB' : arrayOfLine[i] = 1.0 elif strOfLine[i] == 'NRB' : arrayOfLine[i] = 0.0 elif strOfLine[i] != '?' : #没有发现缺失值 arrayOfLine[i] = float(strOfLine[i]) abandonOrNot = False else : #发现缺失值 abandonOrNot = True break if abandonOrNot == True : strOfLine = fr.readline() continue else : attr = arrayOfLine[(numpy.array(range(stopAttr - startAttr + 1)) + numpy.array([startAttr] * (stopAttr - startAttr + 1)))] attr = (attr - minAttr) / attrRanges #归一化 classLabel = arrayOfLine[posOfClass] distance = (attr - inputAttr) ** 2 distance = distance.sum(axis = 0) distance = distance ** 0.5 disAndLabel = numpy.array([distance, classLabel]) refSamples = kNNFunction.insertItem(refSamples, numOfRefSamples, disAndLabel) strOfLine = fr.readline() continue #统计每个类标签出现的次数 classCount = {} for i in range(numOfRefSamples) : voteLabel = refSamples[i][1] classCount[voteLabel] = classCount.get(voteLabel, 0) + 1 sortedClassCount = sorted(classCount.iteritems(), key = operator.itemgetter(1), reverse = True) return int(sortedClassCount[0][0])