收藏本站
收藏 | 论文排版

中文类比检索方法研究

梁超  
【摘要】:随着互联网搜索的不断发展,人们可以方便地检索文档,但传统单一的关键字搜索方式已经不能满足所有用户的需求。对于未知领域的信息,由于用户不能准确输入查询关键字而无法获取期望的信息。 类比检索是一种根据已知领域知识查询未知领域知识的全新检索方式。通过分析词对间的类比关系,类比检索可以准确地返回目标信息。例如,给定查询请求Q={A:B,C:?},A与B之间具有某种关系,目标是得到?所代表的目标词D,其中A与B的关系和C与D的关系相似。 日本学者首次提出了类比检索的概念并提出了相关的类比检索方法,现有的研究涉及日语和英语,关于中文的类比检索较少报道。 本文的主要研究成果可以归纳为: 1.首次研究了中文类比检索方法(Chinese Analogy Retrieval,CAR).本文将中文类比检索分为关系代表词抽取和目标词抽取两大部分。关系代表词抽取部分抽取代表(A,B)词对的关系代表词(集)R,目标词抽取部分根据关系代表词R获得C所对应的目标词(集)D。 2.提出了基于统计的关系代表词和目标词抽取算法(CARBSTA).该算法依据词语共现和词频来对关系代表词和目标词进行统计和排名。 3.提出了基于SVM的关系代表词和目标词抽取算法(CARBSVM).该算法的核心是识别潜在关系句,将潜在关系句的识别看作二分类问题,通过模型训练和识别两个过程确定潜在关系句,从潜在关系句中抽取关系代表词和目标词。 4.通过K-means算法对多关系词对的不同关系进行分类。该算法将候选关系代表词的词频x和词语相似度值y映射为二维空间中的点(x,y)并将这些点聚到K个簇中,最终获得对应不同关系的关系代表词。 本文人工构建测试数据集对两种不同的算法进行试验分析。CARBSTA和CARBSVM算法抽取关系代表词的准确率分别为55%和75%,抽取目标词的准确率分别为75%和83%。通过K-means算法聚类抽取具有多种关系词对的关系代表词准确率为65%。实验结果表明本文提出的两种关系代表词和目标词抽取算法与多关系聚类算法是十分有效的,具有重要的理论和实践意义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 曹来发;;中文电脑交流会、中文信息全国学术交流会在蓉召开[J];水利电力机械;1991年05期
2 孙宝传;中文信息处理技术如何再创辉煌[J];中国传媒科技;2001年10期
3 ;书讯[J];中文信息学报;2010年02期
4 ;在《中文信息》创刊十周年庆祝会上 四川联合大学龙伟副校长致开幕词[J];中文信息;1994年06期
5 ;推动中文信息现代化工程是炎黄子孙义不容辞的职责——基金会积极筹建 热心人士陆续捐赠[J];中文信息;1995年01期
6 ;读者天地[J];中文信息;1994年01期
7 廖坦,张平;信息港与中文信息环境[J];中文信息;1996年05期
8 许嘉璐;语言学研究与中文信息处理[J];中文信息;1997年03期
9 曲大成;周立峰;;怎样阅读Internet网上的中文信息[J];办公自动化;1997年01期
10 姚进;首都在线——全新本地中文信息网[J];网上出版;1998年02期
11 ;全国高师中文信息资料协会第八次代表会议暨学术研讨会在呼市召开[J];情报资料工作;1999年06期
12 ;中国中文信息学会第五次全国会员代表大会暨学会成立二十周年学术年会征文通知[J];中文信息学报;2001年04期
13 ;中文信息技术产品有了认证中心[J];信息技术与标准化;2001年06期
14 真鸣;中文信息研究会少数民族专委会成立大会简况[J];计算机学报;1986年01期
15 曹军;;中文信息速录成新宠[J];互联网天地;2007年12期
16 张寿萱;SYSTEM C——一个多功能中文信息综合处理系统[J];计算机学报;1984年06期
17 ;COLING 2010即将在北京召开[J];中文信息学报;2010年03期
18 汤九斌;西文UNIX系统用户浏览Internet网中文信息的方法[J];中国计算机用户;1997年08期
19 ;《中文信息学报》征稿简则[J];中文信息学报;2011年02期
20 ;通联网络[J];中文信息;1996年06期
中国重要会议论文全文数据库 前10条
1 宋涛;李素建;;基于流形排序的领域词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 郭丽芳;;DIALINDEX数据库收录内容及检索方法[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
3 ;前言[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 ;前言[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 ;前言[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 ;第十届全国计算语言学学术会议组织情况[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 ;第五届全国信息检索学术会议(CCIR 2009)[A];第五届全国信息检索学术会议论文集[C];2009年
8 ;前言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 ;北京中易中标电子信息技术有限公司公司简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
10 ;中文信息的智能处理[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国博士学位论文全文数据库 前10条
1 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
2 袁宝玺;超大规模指纹库的索引结构和检索方法[D];北京邮电大学;2013年
3 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
4 郑贵滨;基于内容的音频信息检索技术研究[D];哈尔滨工业大学;2006年
5 郑铁然;基于音节网格的汉语语音文档检索方法研究[D];哈尔滨工业大学;2008年
6 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
7 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
8 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
9 闫君飞;视频点播系统中的视频检索研究[D];中国科学技术大学;2008年
10 金博;面向专利和零部件的设计知识检索方法[D];大连理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 梁超;中文类比检索方法研究[D];华东师范大学;2013年
2 刘文静;基于标签词抽取的搜索结果聚类研究[D];北京邮电大学;2012年
3 喻琦;中文微博情感分析技术研究[D];浙江工商大学;2013年
4 张永田;词激活力模型在中文词发现中的应用研究[D];北京邮电大学;2013年
5 汪文豪;基于CRFs的同领域和跨领域下的品牌词抽取[D];北京邮电大学;2012年
6 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
7 程舰;基于内容的Internet Web中文信息过滤[D];北京交通大学;2011年
8 李明;针对特定领域的中文新词发现技术研究[D];南京航空航天大学;2012年
9 严孙荣;中文产品评论的意见挖掘研究[D];北京交通大学;2010年
10 张鹏;中文意见挖掘的特征层次构建和抽取算法[D];重庆大学;2010年
中国重要报纸全文数据库 前10条
1 李力;广东云安建国内首个中文信息化城镇[N];经济日报;2004年
2 ;中文信息应用网络应运而生[N];网络世界;2001年
3 詹克山;清除IE地址栏中的中文信息[N];中国计算机报;2002年
4 记者 王兵;中国C网构建中文信息应用系统[N];人民邮电;2001年
5 记者 李琳;中国C网:誓做自主全中文信息网[N];厂长经理日报;2000年
6 罗敏;《中国C网中文信息应用网络系统》近日通过技术成果鉴定[N];中国高新技术产业导报;2001年
7 教育部语信司;第十一届全国民族语言文字信息学术研讨会召开[N];语言文字周报;2007年
8 本报记者  管宏业;新标致307:外观小改 品质大增[N];中国商报;2006年
9 阿祥;没有文化 网站将会怎样?[N];中国信息报;2001年
10 记者李行;海峡两岸共商中文信息技术合作大计[N];新疆日报(汉);2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978