数据挖掘领域国际顶级期刊IEEE TKDE录用实验室论文《Learning to Find Topic Experts in Twitter via Different Relations》

来源: 浏览量: 日期:2016-04-05

    实验室期刊论文“Learning to Find Topic Experts in Twitter via Different Relations”被数据挖掘领域国际顶级期刊IEEE Transactions on Knowledge and Engineering (TKDE)录用。


随着Web2.0技术的蓬勃发展,微博社交网络发展迅速,比如推特(Twitter),其吸引了大量注册用户发布不同领域的各种专业信息,其中也包括大量具有不同主题知识的用户。具不完全统计,Twitter平均每天有大约5,800万条新的推文产生,其内容涵盖了各种不同领域的主题知识,比如航天航空、生物医药、电子科技、互联网金融等。微博信息规模的海量化为在线知识检索与获取带来了新的机遇,但也存在“信息过载”问题,即海量有用信息被大量低质量信息所掩盖。考虑到微博是由用户为中心,以数据为驱动,因此对不同主题知识的在线搜索问题可以转化为对具有不同主题知识专家的查找问题,通过查找到相应的主题专家能够快速定位到相关主题的权威信息,因为通常这些信息是由在该主题具有权威性的专家率先发布的。但是,考虑到微博具有数据规模海量性、信息不透明性、社交关系复杂性等特性,因而传统的主题专家搜索研究很难有效应用于微博主题专家搜索问题。已有的关于微博主题专家搜索研究,通常考虑利用用户属性信息以及微博中社交关系(比如follower relationTwitter List relation)等进行主题专家搜索研究,但是这些方法由于过于单一化考虑微博社交网络中一种连接关系,从而导致其搜索精度不高。因此,我们提出了一种全新的半监督排序模型,在模型中我们通过构建归一化的拉普拉斯正则项(normalized Laplacian regularization)引入微博中多种连接关系以对微博用户和分组进行交互排序来推断微博用户在不同主题的权威性,同时考虑到排序结果的合理性,引入了基于大众智慧的(the wisdom of Twitter crowds)损失函数(loss function)对排序结果进行约束,以惩罚不符合大众先验知识的排序结果,从而获得较为理想的用户全局主题权威性排序分数。另外,我们提出了一种基于高斯函数的相似度度量方法,该方法对用户在给定主题的局部相关性进行度量,然后结合用户在给定主题上的全局权威性,从而能够对给定的任意主题关键词在海量微博用户中进行在线专家查找,并通过实验证明了该方法在微博主题专家查找任务上较已有研究方法在查找性能上有较大提升。