国际顶级人工智能会议AAAI'11录用实验室论文《Integrating Community Question and Answer Archives》

来源: 浏览量: 日期:2011-08-10

实验室论文“Integrating Community Question and Answer Archives”被第25届国际顶级人工智能会议(25th  Conference on Artificial Intelligence, AAAI 2011, AI领域的顶级会议)作为长文全文录用。   


文本数据通常是利用层次结构(hierarchical category)存放于不同目录中以方便管理和查找,但不同的文本数据集通常是根据不同知识结构和侧重点按照自定义的层次结构进行组织,即使是同类型的文本数据集,可能因为存放的层次结构不同而被分配到不同的目录中。一般来说,不同的文本目录结构之间很难找到一一对应的(1-1 mapping)语义映射关系,比如不同的社区问答网站(community-driven question answering)---其多是按照不同的知识结构构造层次结构目录(category)存放用户提交的问答对(question-answering pairs),因此如何有效合并两个具有不同层次结构(分别称为源目录和目标目录)的文本数据集成为一个热门研究问题。针对上述问题,我们提出了一种基于朴素贝叶斯概率模型的分类算法,其主要思想是考虑源目录中文本数据其所属目录与自身的父节点目录以及兄弟节点目录中文本数据之间存在语义相似性,并通过对其建模计算以提升不同层次目录结构文本数据集合并的精确性。