收藏本站
《南京理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向语义关系发现的文本挖掘研究

刘明岩  
【摘要】: 文本挖掘(Text Mining)也称作文本数据挖掘或从文本数据库中的知识发现,是指从非结构化文本信息中获取用户感兴趣或者有用的模式。其中被普遍认可的文本挖掘定义如下:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。 面向语义关系发现的文本挖掘是目前的研究热点,其主要思想是通过对自然语言文本进行扫描和自动化处理,发现概念术语及概念术语间存在的语义关系。概念之间的各种语义关系是知识的重要表现形式,这些语义关系主要有上位关系/下位关系(hypernymy/hyponymy),部分整体关系(part-whole),因果关系(causality),同义关系(synonymy)、反义关系(antonymy)和推论关系(inference)等。从理论层面来看,面向语义关系发现的文本挖掘研究将使自然语言处理从词法分析、句法分析层面深入到语义分析层面;从应用层面来看,面向语义关系发现的文本挖掘研究可以为知识本体的自动或半自动构建提供理论和方法依据。 本文以军用飞机领域的语料为基础,以军用飞机领域概念体系间语义关系发现为研究对象,运用文本挖掘的处理思想和基本流程,结合自然语言处理、信息抽取、本体自动构建相关研究的理论和方法,对基于文本挖掘的语义关系发现进行了研究和探索,并开展了实验研究。主要工作和研究内容包括以下四个方面: (1)面向语义关系发现的文本挖掘相关理论和研究综述。本文对国内外有关自然语言处理、文本挖掘、本体自动构建等方面的研究进展进行了介绍和综述,提出本文的研究方向和研究目标。在此基础上,对本文的研究内容和研究方法进行具体阐述。 (2)军用飞机领域文本处理语料的建设。以维基百科和CNKI数据库中与军用飞机相关的文章,作为本语料库的文本语料。本军用飞机语料库包括1951个术语,304篇文章,在其中抽取出3324个短句。该语料库的建设为本研究的实验提供了基础,也为后续的本体自动构建或其他相关工作提供了素材和研究支持。 (3)基于模板匹配的语义关系发现研究和实验。根据军用飞机领域的知识结构特点,提出军用飞机领域概念体系中包含的典型语义关系。为自动发现和识别这些语义关系,提出了结合编辑距离的模板匹配方法。该方法先在人工参与下训练一批语料,由此获得与语义关系类型相对应的关系模板。利用编辑距离对已获得的关系模板进行归纳匹配,再将其用于测试语料,以验证该方法的效果。 (4)基于复杂网络的语义关系研究和实验。梳理复杂网络理论知识,利用自然语言所具有的网络特征,运用复杂网络发现其中的语义关系。提出一种运用复杂网络和相关分析工具来辅助发现领域概念术语及其语义关系的方法。将术语和与之相关联的词语作为网络的节点,构造复杂网络,由此形成的各个社区就代表一个关系。将术语作为节点,发现的关系作为边,构造军用飞机领域概念体系的复杂网络,并对其进行分析。
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前2条
1 江磊;领域词典的构建及其在语法分析中的应用[D];南京邮电大学;2011年
2 朱宇;网络协议逆向解析与缺陷测试的关键技术研究[D];北京邮电大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 张素香;李蕾;谭咏梅;;特定领域下关系模板的研究[J];北京邮电大学学报;2006年05期
2 吴晓鸣;体育科研中唯物辩证法的主要方法论[J];兵团教育学院学报;1999年01期
3 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
4 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
5 韦洛霞;复杂网络模型和方法[J];东莞理工学院学报;2004年04期
6 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期
7 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
8 黄晨;;语义关系抽取发展现状及抽取方法的研究[J];福建电脑;2009年06期
9 王侠;韩永印;;本体构建研究[J];电脑与电信;2007年11期
10 张文静;梁颖红;;术语抽取技术研究[J];信息技术;2008年03期
中国重要会议论文全文数据库 前1条
1 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前1条
1 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 郑怀国;谭翠萍;李光达;常春;;植物病虫害防治本体模型构建研究[J];安徽农业科学;2009年02期
2 周琼;黄河;;基于百度百科的农业专业词汇自动获取方法研究[J];安徽农业科学;2009年14期
3 关丽红;;基于特定数学模型的语义抽取研究[J];白城师范学院学报;2012年03期
4 刘海涛;;翻译的复杂网络视角[J];北华大学学报(社会科学版);2010年04期
5 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
6 王成;吕学强;王弘蔚;王涛;;基于信息熵与词语活跃度的领域词抽取[J];北京信息科技大学学报(自然科学版);2011年05期
7 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
8 钟义信;;“理解”论:信息内容认知机理的假说[J];北京邮电大学学报;2008年03期
9 史琦;赵慧辉;陈建新;杨易;王伟;;冠心病合并高血压或糖尿病患者四诊信息的网络描述[J];中华中医药杂志;2012年04期
10 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 王雅莉;古丽拉·阿东别克;;哈萨克语通用词汇自动提取方法研究与实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 斯·劳格劳;华沙宝;萨如拉;;基于统计方法的蒙古语依存句法分析模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 刘耀;穗志方;胡永伟;冀铁亮;;领域Ontology自动构建研究[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
6 初霞;王宏;龚春叶;;基于WebGIS网络拓扑可视化的研究与实现[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
7 史东娜;王枞;李卫;;车牌识别领域的中文术语自动抽取[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
8 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
9 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
10 傅爱平;;广义依存关系和汉语自动分析[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
3 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
4 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
5 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
6 周栩;本体工程中若干问题的研究[D];吉林大学;2011年
7 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
8 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
9 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
10 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 江明月;web应用的需求检查[D];浙江理工大学;2010年
2 龙宇;Web服务语义相似性度量方法研究[D];哈尔滨工程大学;2010年
3 黄明明;半监督学习方法研究及在警用平台中的应用[D];大连理工大学;2010年
4 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
5 念闯玲;基于组织知识结构的知识缺口识别方法研究[D];大连理工大学;2010年
6 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
7 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
8 朱利君;基于茶学领域本体的智能检索研究[D];安徽农业大学;2010年
9 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
10 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 黄洲;彭鑫;赵文耘;;基于依赖性分析的对象行为协议逆向恢复[J];计算机科学;2008年08期
2 焦慧;刘迁;贾惠波;;一种基于词编码的中文文档格式[J];计算机科学;2008年10期
3 何永君;舒辉;熊小兵;;基于动态二进制分析的网络协议逆向解析[J];计算机工程;2010年09期
4 疏剑;谢庆生;;制造业领域本体构建方法研究[J];机械与电子;2008年09期
5 姜华;;一种基于本体的概念语义相似度计算研究[J];计算机应用与软件;2009年07期
6 张宝峰;张翀斌;许源;;基于模糊测试的网络协议漏洞挖掘[J];清华大学学报(自然科学版);2009年S2期
7 孔令波;唐世渭;杨冬青;王腾蛟;高军;;XML数据索引技术[J];软件学报;2005年12期
8 田萱;杜小勇;李海华;;语义查询扩展中词语-概念相关度的计算[J];软件学报;2008年08期
9 黄果;周竹荣;;基于领域本体的概念语义相似度计算研究[J];计算机工程与设计;2007年10期
10 李腊元;计算机网络协议的形式描述风格[J];计算机工程与设计;1994年03期
中国博士学位论文全文数据库 前3条
1 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
2 黄传动;通信协议的分布式测试方法研究和测试系统实现[D];中国科学技术大学;2006年
3 李卫;领域知识的获取[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 巩志;蛋白质多序列比对算法及其评估算法的研究[D];山东经济学院;2011年
2 王万山;从Java语言到XML语言的转换[D];吉林大学;2005年
3 毋琳;特定领域问答系统中通用语义理解框架的设计与实现[D];河南大学;2007年
4 彭冰沁;基于XML Schema的XML函数依赖研究[D];湖南师范大学;2007年
5 邹文科;基于本体技术的语义检索及其语义相似度研究[D];北京邮电大学;2008年
6 于季芝;基于距离的进化树构建算法研究[D];哈尔滨工业大学;2007年
7 柳菁筠;生物序列进化树的构建[D];海南师范大学;2008年
8 王朝晖;基于J2EE的民航应用词典系统开发[D];中国民航大学;2009年
9 高锐;基于Web的领域词典构建技术研究[D];哈尔滨工业大学;2008年
10 纪文娟;生物同源序列比对算法研究及其实现[D];江南大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 高曼;Internet与中国大学图书馆[J];北京大学学报(哲学社会科学版);1999年02期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
4 宋丽哲,牛振东,宋瀚涛,余正涛,师雪霖;数字图书馆个性化服务用户模型研究[J];北京理工大学学报;2005年01期
5 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
6 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
7 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
8 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
9 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
10 陈刚;基于本体论的远程教学系统领域知识建模[J];中国远程教育;2004年23期
中国重要会议论文全文数据库 前7条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前2条
1 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
2 谷建军;基于叙词表的中医古籍文献领域本体建模方法研究[D];中国中医科学院;2006年
【相似文献】
中国期刊全文数据库 前10条
1 ;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期
2 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
3 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
4 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期
5 渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期
6 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
7 付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期
8 曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期
9 韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期
10 胥桂仙,杨丹丹,高旭,陈立新;中文文本挖掘中姓名特征提取技术的研究[J];中央民族大学学报(自然科学版);2003年04期
中国重要会议论文全文数据库 前10条
1 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
2 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
4 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
6 ;TRS搜索引擎和文本挖掘系统[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
7 王波;王厚峰;;基于自学习策略的产品特征自动识别(英文)[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 杨志豪;林鸿飞;;生物医学文献中的隐含知识发现[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 樊延平;马亚龙;袁野;;军事想定数据挖掘技术研究[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
10 王巍;杨武;张乐君;郑军;;支持网络话题管理的文本挖掘算法分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 汪洋 编译;BI平民化[N];计算机世界;2004年
6 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
7 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
8 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
9 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
10 本报记者 张承东;挖潜无极限[N];网络世界;2006年
中国博士学位论文全文数据库 前10条
1 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
2 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
7 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
8 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
9 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
10 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
2 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
3 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
4 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
5 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
6 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
7 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
8 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
9 杨瑞峰;WEB上基于文本挖掘的个性化检索系统的设计与实现[D];电子科技大学;2003年
10 赵天雪;潜在语义分析在答疑系统中的应用研究[D];吉林大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026