首页> 外文学位 >Document similarity based on concept tree distance.
【24h】

Document similarity based on concept tree distance.

机译:基于概念树距离的文档相似度。

获取原文
获取原文并翻译 | 示例

摘要

The Web is fast moving from an era of search engines to an era of discovery engines. Discovery engines help you find things that you never knew existed or did not know how to ask for. One of the ways this can be done is by automatically computing and displaying objects that are similar to the object in which the user is currently expressing interest. In this paper, we present a new approach to compute interdocument similarity that is based on a tree-matching algorithm. We represent each document as a concept tree using the concept associations obtained from a classifier. We make use of a tree-matching algorithm called the tree edit distance to compute similarities between these concept trees. Experiments on a subset of documents from the CiteSeer collection showed that our algorithm performed better than the document similarity based on the traditional vector space model.
机译:Web正在从搜索引擎时代迅速过渡到发现引擎时代。发现引擎可帮助您找到您不知道的东西或不知道如何要求的东西。可以完成此操作的方法之一是通过自动计算和显示与用户当前表达兴趣的对象相似的对象。在本文中,我们提出了一种基于树匹配算法的文档间相似度计算新方法。我们使用从分类器获得的概念关联将每个文档表示为概念树。我们利用称为树编辑距离的树匹配算法来计算这些概念树之间的相似度。对CiteSeer集合的一部分文档进行的实验表明,我们的算法比基于传统矢量空间模型的文档相似性更好。

著录项

  • 作者

    Lakkaraju, Praveen.;

  • 作者单位

    University of Kansas.;

  • 授予单位 University of Kansas.;
  • 学科 Computer Science.
  • 学位 M.S.
  • 年度 2007
  • 页码 51 p.
  • 总页数 51
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 自动化技术、计算机技术;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号