国际知名期刊Information Science录用实验室论文《Exploring Heterogeneous Features for Query-focused Summarization of Categorized Community Answers》

来源: 浏览量: 日期:2016-10-05

    实验室期刊论文“Exploring Heterogeneous Features for Query-focused Summarization of Categorized Community Answers”被国际知名期刊Information Science (IF:4.038)录用。


相对于传统搜索引擎只能检索到与查询相关的文档,基于社区驱动的问答(community-driven question answeringcQA)网站由于其能够直接获取与查询问题相关的知识(答案),而逐渐被大众所接受从而引起广大研究学者的注意。cQA本身也提供检索机制以方便用户快速搜索与查询问题相关的答案,但其返回的检索问答对链表通常具有不完全性、冗余性及不相关性等特性,因此人们很难从返回结果中快速获取知识。因此,为了帮助人们从大量返回的问答对中快速掌握其中蕴含的主要知识,以减少用户浏览知识的时间开销。我们提出了一种基于查询主题相关的多文档摘要算法(query-focused answer summarization),但是以往的查询相关多文档摘要算法(如clustering-basedgraph-basedmanifold-ranking based等)很难直接应用于该问题,因为这些通常假定文档数据集中含有足够统计信息以用于主要信息抽取,但是该假设在cQA中很难成立,因为cQAanswer通常为短文本,其较难直接从answer数据集中抽取到足够的特征信息应用于信息抽取。因此,基于该问题我们提出了一种全新的针对cQAanswer数据集的查询主题相关多文档摘要算法,该算法能够有效抽取cQA平台中与answer相关的各种属性特征信息(如categoryquestion等),并通过构建五种特殊的词匹配方法对候选集合中answer的重要性和相关性进行度量,从而抽取候选answer集合中重要的文本信息以形成摘要返回给查询用户。