数据挖掘领域国际顶级会议SIGKDD'11录用实验室论文《Semi-supervised ranking on very large graphs with rich metadata》

来源: 浏览量: 日期:2011-08-16

实验室论文“Semi-supervised ranking on very large graphs with rich metadata”被第17届国际顶级数据挖掘会议(17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining ,SIGKDD 2011, DM顶级会议)作为长文全文录用,oral rate 8.7%。


图排序算法(graph-based ranking)是当前数据挖掘、机器学习以及信息检索领域一个重要的基础研究课题,由于其能够有效从具有图结构属性的原始数据(raw data)中挖掘出重要的具有潜在价值的信息(或知识),因而已被广泛应用,如网页排序(Web ranking)、社交计算(social computing)等。近年来,真实环境下的图数据规模已达到十亿级甚至万亿级的规模,且图数据上附属了大量异质属性信息(heterogeneous information),如附属在图结构节点/边上的元数据信息(meta-data)以及相关的先验知识(prior knowledge,又称为隐式约束)。这些异质信息能够有效提高排序结果的精确性并保证排序结果与人们先验知识的一致性。但是,传统的图排序算法通常具有以下问题:(1)基于无监督机器学习的排序算法如PageRank或者HITS算法等,通常仅仅依赖于简单的图结构而忽略了图中丰富的异质属性信息,其主要思想是利用离散马尔科夫模型( discrete-time Markov model)对应的平稳分布(stationary distribution)来计算图中各个节点的重要性,但其很难保证排序结果符合人们已有的先验知识;或者(2)基于监督机器学习的图排序算法,其存在过拟合(over-fitting)、算法时间开销大(接近 O(n3), n为图中节点个数)等问题。因此,我们提出了一种全新的通用半监督图排序模型(Semi-Supervised Graph Ranking,SSGR),在模型中充分考虑图数据中的异质属性信息:(1)在模型中利用正则项(regularization term)引入参数化模型考虑图中点/边上提取的特征属性---主要是参数化概率转移矩阵(transition probability matrix)及重置概率向量(reset probability vector);(2)利用损失函数(loss function)引入由先验知识转化的约束变量来监督排序结果的合理性。同时,为了验证算法的有效性,我们利用map-reduce 逻辑将算法并行化,对真实的十亿级商业搜索引擎网页图数据进行排序并获得了良好的排序结果,该实验是本领域内已知最大规模的图节点排序实验。