中文类比检索方法研究
【摘要】:随着互联网搜索的不断发展,人们可以方便地检索文档,但传统单一的关键字搜索方式已经不能满足所有用户的需求。对于未知领域的信息,由于用户不能准确输入查询关键字而无法获取期望的信息。
类比检索是一种根据已知领域知识查询未知领域知识的全新检索方式。通过分析词对间的类比关系,类比检索可以准确地返回目标信息。例如,给定查询请求Q={A:B,C:?},A与B之间具有某种关系,目标是得到?所代表的目标词D,其中A与B的关系和C与D的关系相似。
日本学者首次提出了类比检索的概念并提出了相关的类比检索方法,现有的研究涉及日语和英语,关于中文的类比检索较少报道。
本文的主要研究成果可以归纳为:
1.首次研究了中文类比检索方法(Chinese Analogy Retrieval,CAR).本文将中文类比检索分为关系代表词抽取和目标词抽取两大部分。关系代表词抽取部分抽取代表(A,B)词对的关系代表词(集)R,目标词抽取部分根据关系代表词R获得C所对应的目标词(集)D。
2.提出了基于统计的关系代表词和目标词抽取算法(CARBSTA).该算法依据词语共现和词频来对关系代表词和目标词进行统计和排名。
3.提出了基于SVM的关系代表词和目标词抽取算法(CARBSVM).该算法的核心是识别潜在关系句,将潜在关系句的识别看作二分类问题,通过模型训练和识别两个过程确定潜在关系句,从潜在关系句中抽取关系代表词和目标词。
4.通过K-means算法对多关系词对的不同关系进行分类。该算法将候选关系代表词的词频x和词语相似度值y映射为二维空间中的点(x,y)并将这些点聚到K个簇中,最终获得对应不同关系的关系代表词。
本文人工构建测试数据集对两种不同的算法进行试验分析。CARBSTA和CARBSVM算法抽取关系代表词的准确率分别为55%和75%,抽取目标词的准确率分别为75%和83%。通过K-means算法聚类抽取具有多种关系词对的关系代表词准确率为65%。实验结果表明本文提出的两种关系代表词和目标词抽取算法与多关系聚类算法是十分有效的,具有重要的理论和实践意义。
|
|
|
|
1 |
宋涛;李素建;;基于流形排序的领域词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年 |
2 |
郭丽芳;;DIALINDEX数据库收录内容及检索方法[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年 |
3 |
;前言[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年 |
4 |
;前言[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年 |
5 |
;前言[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年 |
6 |
;第十届全国计算语言学学术会议组织情况[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年 |
7 |
;第五届全国信息检索学术会议(CCIR 2009)[A];第五届全国信息检索学术会议论文集[C];2009年 |
8 |
;前言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年 |
9 |
;北京中易中标电子信息技术有限公司公司简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年 |
10 |
;中文信息的智能处理[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年 |
|