收藏本站
《上海交通大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

概念内涵属性计算研究

刘磊  
【摘要】:当今计算语言学界语义处理方兴未艾,中文信息处理的深度也在不断增加,研究内容从词法到句法,到语义,再到语用。但是,中文在句法处理阶段就遇到了很大的困难。究其原因,是因为中文缺乏形态变化,词类和句法成分没有严格的对应关系,所以并不适合印欧语系的句法理论。中文的特点是以名词为中心,表现形式是概念的直接耦合。因此,对于中文的处理可以淡化句法,注重概念。本文通过对概念内涵结构的分析,认为属性是用以表达概念内涵的至关重要的基本单位,并采用概念图的形式来表示语义。本文研究从手工标引实例出发,总结了概念图标引的方法和步骤。在此基础上,本文探索了词汇语义相似度计算,属性的自动获取,以及概念图模型在检索中的应用。具体来讲,本文的创新性工作有以下几个方面: 一、提出了一种基于概念内涵结构形式的概念图表示方法,用以描述汉语语义,并总结了手工标引概念图的方法和步骤。这种表示方法可以用在检索系统中,对用户查询和文档进行标引,克服了传统布尔模型和向量模型会割裂语义完整性的缺点。这是全文工作的前提和基础。 二、提出了两种计算词汇语义相似度的方法,这是语义计算的基础工作之 一。第一种方法基于大规模语料库,统计词语的上下文规律,作为相似度计算的依据。这种方法利用了Web上的海量数据,从统计规律上揭示了词语之间的相似程度。第二种方法利用词典释义求解相似度。词典是专家知识的总结,这种方法拥有数据可靠、计算效率高等优点。为了进一步提高计算效率,本文还使用链接分析方法来获取释义中最核心的词汇集合。实验结果表明,两种方法都是有效的,尤其是第二种方法。词汇语义相似度计算是本文后续工作的支撑方法。 三、提出了一种自动在词典释义中抽取属性的Bootstrapping方法,从而构建一个属性知识库。属性知识库是一种应用广泛的语义资源,可用于信息检索、结构消歧等工作中。这种方法根据用户提供的若干种子启动训练,然后迭代生成抽取模板,并抽取新的属性。迭代过程中采用生物序列比对算法,对齐种子的上下文,从中自动生成语义上相对明确、容易理解的模板集合。为了提高模板的抽取能力,本文还在序列比对算法中融合了词汇语义相似度度量,并使用同义词资源对模板进一步泛化。实验结果表明,这种方法在准确率和召回率上都取得了较好的性能。 四、提出了两种协同工作的属性名扩展方法和一种基于Web的属性名验证方法,对属性抽取结果进一步扩展,以构建内容更加丰富的属性知识库。属性扩展包括基于下位语义关系和基于并列语言成分的方法,这两种方法都是对语言现象的总结与利用。为了对扩展的属性名进行验证,本文提出了一种改进的PMI-IR算法,利用搜索引擎的查询命中数来对候选属性名进行评分。实验结果表明,这两种属性扩展方法可以极大地丰富属性名集合。 五、提出了面向检索的概念图自动标引技术。首先使用属性抽取方法对已有文档进行处理,构建概念框架图,将标引工作转化为框架图的填充。为了更好地刻画用户的查询目的,本文提出了“需求焦点”这一概念,并与传统的用户需求类型做了对比。在查询标引中,本文还提出了一种基于搜索引擎的最大匹配分词方法,比传统分词方法能更准确地切分出查询中的命名实体。最终实验结果表明,查询和文档的自动标引都达到了较为不错的准确率和召回率。 六、提出了面向检索的概念图相似度计算方法。相比以往工作,本文更为细致地分析了实体、属性名和属性值三种节点的不同,对应提出了不同的节点相似度计算方法。然后在此基础上,对整张概念图的相似度进行递归计算。实验结果表明,基于概念图的检索模型是有效的,而且需求焦点的引入能提升搜索结果的质量。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王钟斐;;一种改进的PageRank算法[J];计算机与数字工程;2011年06期
2 范伟,宣国荣;VR系统三维建模中细节水平分割的分析[J];计算机工程;1998年01期
3 李振星,徐泽平,唐卫清,唐荣锡;网页多词元快速聚类算法[J];计算机工程;2003年02期
4 孙宏伟,田新广,李学春,张尔扬;一种改进的IDS异常检测模型[J];计算机学报;2003年11期
5 贺晓,刘景宁,李淑霞;基于灰色关联理论的案例推理在故障智能诊断系统中的应用[J];中国机械工程;2004年22期
6 田捷,何余良,陈宏,杨鑫;一种基于相似度聚类方法的指纹识别算法[J];中国科学E辑;2005年02期
7 李志东,云晓春,杨武,辛毅;基于相似通信特征扩散分析的未知蠕虫检测[J];计算机工程与应用;2005年19期
8 范自柱;;一种基于曲面求交的图像识别方法[J];计算机与信息技术;2005年03期
9 张树江;邢慧;颜景龙;;一种基于相似度的子弹识别方法[J];广西师范大学学报(自然科学版);2006年04期
10 李珊;何建敏;厉浩;;基于本体和加权互信息的专业知识检索[J];情报学报;2006年05期
11 田宏;王秀坤;;一种基于弱模糊相似关系的广义粗糙集[J];大连理工大学学报;2007年02期
12 闫英杰;林鸿飞;王剑峰;;基于混合策略的中文文摘自动评测方法[J];广西师范大学学报(自然科学版);2007年02期
13 孟海涛;陈笑蓉;;基于模糊相似度的科技文献软聚类算法[J];贵州大学学报(自然科学版);2007年02期
14 谢桂芳;李仁发;;具有概念联想功能的语义关系库的自动构建[J];计算机工程与应用;2007年07期
15 李锋;魏莹;;分布式环境下基于语义相似的案例检索[J];计算机工程;2007年09期
16 黄新;徐小娟;;基于ontology的智能答疑系统的研究[J];科学技术与工程;2007年12期
17 王展;朱斌;杨海成;李虹;;不确定性顾客需求的产品优选方法研究[J];计算机工程与应用;2007年20期
18 胡立辉;;基于偏好一致性的群体聚类算法[J];计算机工程与应用;2007年22期
19 魏玲玲;邱桃荣;陈霞;;基于相似度对Rough关系数据库检索[J];计算机工程与设计;2007年17期
20 刘军;陈艳;;案例推理在软件成本估算研究中的应用[J];软件导刊;2007年17期
中国重要会议论文全文数据库 前10条
1 李娆娆;雷沛霖;黄兰岚;原思通;刘营;;芫花药材高效液相指纹图谱研究[A];中华中医药学会四大怀药与地道药材研究论坛暨中药炮制分会第二届第五次学术会与第三届会员代表大会论文集[C];2007年
2 张虎;郭玉翠;宫尚宝;;移动Ad-hoc网络中基于第三方观察机制的信任管理研究[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
3 王志松;;决策树中数据遗失值填充方法的研究[A];2001年中国智能自动化会议论文集(下册)[C];2001年
4 汤丽华;赵吴静;金菊良;张明;;基于熵的水质综合评价的相似插值模型[A];第八届中国管理科学学术年会论文集[C];2006年
5 王娟;;一种基于粗糙集理论的操作风险判别方法[A];科学发展观与系统工程——中国系统工程学会第十四届学术年会论文集[C];2006年
6 刘晓林;郁滨;;基于相似度的遗传算法模式理论研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
7 金保华;高湘飞;柳雪环;张磊;;基于XML框架与CBR智能预案管理的研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
8 王超;许方;;一种基于奇异值分解的印刷体数字识别算法[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
9 麦智毅;杨春玲;;基于结构相似度的H.264帧内预测快速算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
10 李增扬;李兵;何克清;;本体中复杂网络特性的发现[A];2006全国复杂网络学术会议论文集[C];2006年
中国重要报纸全文数据库 前10条
1 证券时报记者  韩如冰;基金投资相似度趋高[N];证券时报;2006年
2 聂磊 曹进 罗国安;中药指纹图谱相似度评价方法各有千秋[N];中国医药报;2006年
3 孟祥宁 张亚萌 郭青剑;山寨文化:是一种什么样的文化[N];中国艺术报;2009年
4 聂磊;曹进;罗国安;中药指纹图谱相似度评价方法作用各一[N];中国医药报;2005年
5 海潮;俄研究发现妊娠中毒症疑与夫妇HLA基因相似度有关[N];中国医药报;2007年
6 栾海;妊娠中毒症可能与夫妇 HLA基因相似度有关[N];医药经济报;2007年
7 沈阳药科大学药学院 孙国祥;中药指纹图谱研究新进展[N];中国中医药报;2007年
8 记者 李学梅;研究证实:父亲“偏爱”与自己相像的孩子[N];新华每日电讯;2009年
9 小新;妊娠中毒症与夫妇HLA基因相似度有关[N];中国医药报;2007年
10 天相投顾 王聃聃;投资同质化 基金繁荣背后的痛[N];证券时报;2007年
中国博士学位论文全文数据库 前10条
1 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
2 顾本柏;客体相似性表征的认知和发展机制研究[D];西南大学;2011年
3 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
4 肖宇;聚类分析及其在图像处理中的应用[D];北京交通大学;2012年
5 游扬声;一般分布模式下GIS位置数据的不确定性研究[D];武汉大学;2005年
6 孙平;高科技品牌延伸的评价模型与消费者评价实证研究[D];山东大学;2008年
7 刘晓东;面向无线传感器网络数据传输与查询的节能算法与理论研究[D];中国海洋大学;2009年
8 张旭秀;盲源分离及其在脑电信号处理中应用的研究[D];大连理工大学;2006年
9 刘建华;粒子群算法的基本理论及其改进研究[D];中南大学;2009年
10 马群;安宫牛黄丸生产过程质量评价方法研究[D];北京中医药大学;2007年
中国硕士学位论文全文数据库 前10条
1 伍星宇;基于相似度的社区发现算法研究[D];华中科技大学;2012年
2 石安磊;基于文本相似度评分的中医案例分析系统研究与实现[D];西北大学;2011年
3 闵江;基于语义网的本体相似度算法研究[D];华东交通大学;2011年
4 裴运亮;基于切词和语义的中文相似度研究与应用[D];电子科技大学;2011年
5 乔善磊;中药色谱指纹图谱相似度评价研究[D];第二军医大学;2004年
6 严东宾;基于MULTI-TASK LASSO的英文词对间关系相似度算法[D];华东师范大学;2013年
7 毛治佳;基于属性相似度的报警关联系统的研究与实现[D];西安电子科技大学;2011年
8 唐亚伟;公式相似度算法及其在论文查重中的应用研究[D];渤海大学;2013年
9 吴波;改进的编辑距离算法的研究及其在电子政务中的应用[D];电子科技大学;2011年
10 毛丹;青少年儿童对中国和美国国民及国家的社会表征[D];华中师范大学;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978