模糊系统与数学

基于交叉熵测度的成对约束模糊核聚类算法

在大数据时代,对数据进行人工标注往往需要耗费大量的人工成本,从而使得研究如何有效利用少量带标注对象开展知识学习成为机器学习中的一个重要课题。因此,如何在只有少量指导信息的情况下去学习知识是目前一个很重要的研究议题。常见的半监督信息[1-4]有2类:一类是少部分对象带类标签信息;另一类是少量对象间的成对约束信息。其中,成对约束信息因其标注成本低且有效,而被众多半监督核聚类[5-8]所采用。但是,成对约束信息的测度目前还没有一个统一标准,进而限制了成对约束指导信息的有效利用。因此,如何有效测度和利用成对约束指导信息成为半监督学习算法研究领域的一个亟待解决的新议题。

Wang[9]引入对象间隶属度交互效应测度,基于模糊数学理论将软聚类思想推广应用到非球形数据,提出了基于成对约束的半监督模糊核聚类算法(semi-supervised kernel-based fuzzy c-means with pairwise constraints,PCKFCM)。目前基于成对约束的核聚类算法研究主要集中在以下两方面:1)对象方面。Wang[10]利用动态加权给对象空间上每个对象分配一个动态权值,以解决对象对类簇贡献不均衡的问题,形成了基于成对约束的动态加权半监督模糊核聚类算法(DKFCM)。王勇臻等[11]提出了利用主动学习的方法选择对象,以解决初始化对象不具代表性的问题。王小玉[12]利用成对约束调整对象间的关系,以解决密度相差比较大的簇进行有效聚类的问题,提出了基于共享近邻的成对约束谱聚类算法。2)核函数方面。Wang[13]提出了面向成对约束半监督模糊核聚类的核参数优化算法,以解决核函数参数影响聚类性能的问题。Kusunoki[14]提出利用Boolean核函数解决类簇可解释性的问题。Zhang等[15]利用自适应核方法指导标注传播,实现高维数据分类。但目前对于成对约束核聚类的研究中,还缺少对成对约束指导信息的有效测度方面的关注。

为了解决上述问题,本文提出基于交叉熵测度的成对约束核函数聚类算法。交叉熵作为成对约束对象隶属度选择的信息度量工具,以此为基础而提出了本文的最小-最大交叉熵隶属度学习准则。以此准则为基础,形成基于交叉熵测度的成对约束核函数聚类算法。与其他算法的性能对比实验表明:本算法的对象类簇划分更加有效,同时也说明本算法能更加有效利用成对约束指导信息提升聚类性能。

1 成对约束及核聚类算法

成对约束[16]一般可以分为正关联约束(mustlink)和负关联约{束(cannot-link)2种}约束。设mustlink集合则表示与属于同一类{,记这种关系为};设cannot-link集合,若则表示与属于不同类,记这种关系为;成对约束关系示意如图1所示。

图1 成对约束示意

将成对约束指导信息引入到核聚类算法是一种提升聚类性能的有效途径。核聚类算法利用Mercer核[17]将原始空间上的对象映射到高维特征空间上,从而实现对象线性可分。如图2所示,在二维空间上呈环状分布的非球形数据难以被有效划分,但通过核方法映射到三维空间上便可实现线性可分。

图2 核函数映射

在FCM算法[18]基础上,模糊核聚类算法[19](KFCM)的目标函数如下:

在此基础上,一种用对象间隶属度二次项测度方法[9]来表示成对约束的核模糊算法PCKFCM被提出。PCKFCM算法的目标函数如下:

式中的第1部分继承FKC算法处理非球形数据的方法;第2部分是成对约束违反的惩罚项;为平衡参数。PCKFCM算法用对象隶属度交互相乘的测度来指导学习过程。

2 基于交叉熵测度的成对约束核聚类算法(CEM-FKCPC)

2.1 交叉熵

1948年,Shannon[20]借鉴热力学中熵的概念,将其引入到信息论中,提出了信息熵(也称为香农熵)。信息熵量化了对象包含的不确定性,而交叉熵作为信息熵的拓展,量化了对象间不确定性的差异程度,也是信息论研究中的重要领域,在机器学习、模式识别等众多领域有着广泛的应用。尤其在深度学习领域中,交叉熵可以作为一种损失函数用来评判学习效果。因此在CEMFKCPC(cross-entropy-measure based fuzzy kernel clusting algorithm with pairwise constraints)算法中,我们将交叉熵引入到成对约束指导信息度量中。

定义1 对于任意2个对象与,其交叉熵定义为

式中:代 表第个对象属于第i个类簇的隶属度;代 表第个对象属于第i个类簇的隶属度;

从对象交叉熵定义的数学表达式中可以推出如下关系式[21]:

上一篇:基于动态模糊聚类的数据挖掘研究以安徽城市综
下一篇:没有了