现有的距离度量学习算法都是假设训练数据和测试数据服从相同的分布,但是该假设在实际中不一定成立。当训练数据和测试数据的分布不同时,利用训练数据学习得到的度量函数可能难以适用于测试数据。针对上述问题,本文在NCA(Neighbourhood Components Analysis)度量学习方法的基础上,通过引入概率密度比值对目标函数加权,提出了一种采用概率密度比值估计的距离度量学习方法(Distance metric learning with ProbabilityDensity Ratio Estimation,DML-PDR)。在UCI数据集和Corel图像库上的KNN分类实验表明,新方法克服了传统度量学习方法的不一致问题,提高了分类的准确率。
在视觉单词包模型(bag of visual words,BoVW)模型中,由于特征检测的不足、聚类算法的缺陷及视觉单词的量化误差,用BoVW模型产生的视觉词典中,存在视觉单词同义性和歧义性的问题,因此用BoVW计算图像距离时,效果不太理想。BoVW模型产生的词典规模巨大,学习一个普通矩阵需要的运算量难以接受。针对BoVW模型上述缺陷,文章提出了一种基于SVM的BoVW距离度量学习方法。该方法利用SVM训练一个将相似图像对与非相似图像对最大程度分离的超平面,得到计算词频直方图点积的权重矩阵。在Oxford图像集上的检索实验表明了该方法的有效性。