概念内涵属性计算研究
【摘要】:当今计算语言学界语义处理方兴未艾,中文信息处理的深度也在不断增加,研究内容从词法到句法,到语义,再到语用。但是,中文在句法处理阶段就遇到了很大的困难。究其原因,是因为中文缺乏形态变化,词类和句法成分没有严格的对应关系,所以并不适合印欧语系的句法理论。中文的特点是以名词为中心,表现形式是概念的直接耦合。因此,对于中文的处理可以淡化句法,注重概念。本文通过对概念内涵结构的分析,认为属性是用以表达概念内涵的至关重要的基本单位,并采用概念图的形式来表示语义。本文研究从手工标引实例出发,总结了概念图标引的方法和步骤。在此基础上,本文探索了词汇语义相似度计算,属性的自动获取,以及概念图模型在检索中的应用。具体来讲,本文的创新性工作有以下几个方面:
一、提出了一种基于概念内涵结构形式的概念图表示方法,用以描述汉语语义,并总结了手工标引概念图的方法和步骤。这种表示方法可以用在检索系统中,对用户查询和文档进行标引,克服了传统布尔模型和向量模型会割裂语义完整性的缺点。这是全文工作的前提和基础。
二、提出了两种计算词汇语义相似度的方法,这是语义计算的基础工作之
一。第一种方法基于大规模语料库,统计词语的上下文规律,作为相似度计算的依据。这种方法利用了Web上的海量数据,从统计规律上揭示了词语之间的相似程度。第二种方法利用词典释义求解相似度。词典是专家知识的总结,这种方法拥有数据可靠、计算效率高等优点。为了进一步提高计算效率,本文还使用链接分析方法来获取释义中最核心的词汇集合。实验结果表明,两种方法都是有效的,尤其是第二种方法。词汇语义相似度计算是本文后续工作的支撑方法。
三、提出了一种自动在词典释义中抽取属性的Bootstrapping方法,从而构建一个属性知识库。属性知识库是一种应用广泛的语义资源,可用于信息检索、结构消歧等工作中。这种方法根据用户提供的若干种子启动训练,然后迭代生成抽取模板,并抽取新的属性。迭代过程中采用生物序列比对算法,对齐种子的上下文,从中自动生成语义上相对明确、容易理解的模板集合。为了提高模板的抽取能力,本文还在序列比对算法中融合了词汇语义相似度度量,并使用同义词资源对模板进一步泛化。实验结果表明,这种方法在准确率和召回率上都取得了较好的性能。
四、提出了两种协同工作的属性名扩展方法和一种基于Web的属性名验证方法,对属性抽取结果进一步扩展,以构建内容更加丰富的属性知识库。属性扩展包括基于下位语义关系和基于并列语言成分的方法,这两种方法都是对语言现象的总结与利用。为了对扩展的属性名进行验证,本文提出了一种改进的PMI-IR算法,利用搜索引擎的查询命中数来对候选属性名进行评分。实验结果表明,这两种属性扩展方法可以极大地丰富属性名集合。
五、提出了面向检索的概念图自动标引技术。首先使用属性抽取方法对已有文档进行处理,构建概念框架图,将标引工作转化为框架图的填充。为了更好地刻画用户的查询目的,本文提出了“需求焦点”这一概念,并与传统的用户需求类型做了对比。在查询标引中,本文还提出了一种基于搜索引擎的最大匹配分词方法,比传统分词方法能更准确地切分出查询中的命名实体。最终实验结果表明,查询和文档的自动标引都达到了较为不错的准确率和召回率。
六、提出了面向检索的概念图相似度计算方法。相比以往工作,本文更为细致地分析了实体、属性名和属性值三种节点的不同,对应提出了不同的节点相似度计算方法。然后在此基础上,对整张概念图的相似度进行递归计算。实验结果表明,基于概念图的检索模型是有效的,而且需求焦点的引入能提升搜索结果的质量。
|
|
|
|
1 |
王钟斐;;一种改进的PageRank算法[J];计算机与数字工程;2011年06期 |
2 |
范伟,宣国荣;VR系统三维建模中细节水平分割的分析[J];计算机工程;1998年01期 |
3 |
李振星,徐泽平,唐卫清,唐荣锡;网页多词元快速聚类算法[J];计算机工程;2003年02期 |
4 |
孙宏伟,田新广,李学春,张尔扬;一种改进的IDS异常检测模型[J];计算机学报;2003年11期 |
5 |
贺晓,刘景宁,李淑霞;基于灰色关联理论的案例推理在故障智能诊断系统中的应用[J];中国机械工程;2004年22期 |
6 |
田捷,何余良,陈宏,杨鑫;一种基于相似度聚类方法的指纹识别算法[J];中国科学E辑;2005年02期 |
7 |
李志东,云晓春,杨武,辛毅;基于相似通信特征扩散分析的未知蠕虫检测[J];计算机工程与应用;2005年19期 |
8 |
范自柱;;一种基于曲面求交的图像识别方法[J];计算机与信息技术;2005年03期 |
9 |
张树江;邢慧;颜景龙;;一种基于相似度的子弹识别方法[J];广西师范大学学报(自然科学版);2006年04期 |
10 |
李珊;何建敏;厉浩;;基于本体和加权互信息的专业知识检索[J];情报学报;2006年05期 |
11 |
田宏;王秀坤;;一种基于弱模糊相似关系的广义粗糙集[J];大连理工大学学报;2007年02期 |
12 |
闫英杰;林鸿飞;王剑峰;;基于混合策略的中文文摘自动评测方法[J];广西师范大学学报(自然科学版);2007年02期 |
13 |
孟海涛;陈笑蓉;;基于模糊相似度的科技文献软聚类算法[J];贵州大学学报(自然科学版);2007年02期 |
14 |
谢桂芳;李仁发;;具有概念联想功能的语义关系库的自动构建[J];计算机工程与应用;2007年07期 |
15 |
李锋;魏莹;;分布式环境下基于语义相似的案例检索[J];计算机工程;2007年09期 |
16 |
黄新;徐小娟;;基于ontology的智能答疑系统的研究[J];科学技术与工程;2007年12期 |
17 |
王展;朱斌;杨海成;李虹;;不确定性顾客需求的产品优选方法研究[J];计算机工程与应用;2007年20期 |
18 |
胡立辉;;基于偏好一致性的群体聚类算法[J];计算机工程与应用;2007年22期 |
19 |
魏玲玲;邱桃荣;陈霞;;基于相似度对Rough关系数据库检索[J];计算机工程与设计;2007年17期 |
20 |
刘军;陈艳;;案例推理在软件成本估算研究中的应用[J];软件导刊;2007年17期 |
|