收藏本站
《北京语言大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

术语定义抽取、聚类与术语识别研究

张榕  
【摘要】:由于科技的进步,社会的发展,新概念、新事物不断涌现。这些新概念与新事物产生以后,必定要用一个术语来指称它,由此大量的术语融入语言词汇的集合之中。统计表明术语在语言词汇中所占的比例逐年增加,术语学的研究也越来越受到有关学者的重视。对这些术语进行深入系统的研究不但从语言学的角度上来说是必要的,而且从语言信息处理的角度来说,也具有实际的应用意义。 我们正处于一个网络飞速发展,信息激增的时代,如何从信息的海洋中高效地获取到需要的知识是一个亟待解决的问题。搜索引擎方便了人们的查询需求,但是针对查找术语释义这样一个特定的问题,搜索引擎却无法提供高效、便捷的查询服务。 在这样的背景下,本文提出了下述研究课题: 1.关于什么是术语的可操作性界定; 2.面向大规模文本的术语定义抽取方法; 3.术语定义的领域聚类方法: 4.术语定义抽取基础上的术语识别方法。 本文的研究以八千三百万字的涉及27个领域的包含328158条术语的术语数据库为术语专业语料,该数据库中的每条术语都有定义解释,同时以7年的人民日报为普通语料进行统计,在此基础上针对术语定义抽取、术语识别以及术语定义聚类进行考察。 本文的研究特色主要包括: 1.什么是术语的可操作性界定。从语言信息处理的角度出发,提出一种对于“术语”的界定:在某种程度上,术语就是被定义项,即术语是带定义性描述的词或词组。这种对术语的界定将术语与术语定义结合起来,将术语和普通词语区分开来,并且具有可操作性。 2.术语定义抽取方法。使用“规则”+“统计”的方法从真实文本中抽取出术语定义。通过考察术语定义用词与人民日报用词的不同,提出词语的“定义隶属度”和句子的“定义隶属度”的概念。由术语定义的匹配规则与排除规则提取候选定义,通过计算句子的定义
【学位授予单位】:北京语言大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:H083

【引证文献】
中国期刊全文数据库 前3条
1 辛玉玲;;搜索引擎相关技术研究概述[J];舰船电子工程;2008年10期
2 化柏林;刘一宁;郑彦宁;;针对学术定义的抽取规则构建方法研究[J];情报理论与实践;2011年12期
3 刘建华;张智雄;徐健;许雁冬;;自动术语识别——对科技文献进行文本挖掘的重要技术方法[J];现代图书情报技术;2008年08期
中国硕士学位论文全文数据库 前5条
1 宁海燕;实体关系自动抽取技术的比较研究[D];哈尔滨工业大学;2010年
2 李芳;现代汉语数字缩略语自动提取研究[D];河北大学;2008年
3 赵芷晴;航空发动机适航知识获取与表示方法研究[D];南京航空航天大学;2012年
4 赵欣;基于最大熵的中文术语抽取系统的设计与实现[D];西安电子科技大学;2012年
5 赵小兰;网络释义文本的语言模式研究[D];河北大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
2 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
3 王志科;周学恒;;从概念角度浅议专业术语与一般词汇意义[J];呼伦贝尔学院学报;2005年05期
4 李萍,黄崇岭;IT领域的专业术语构词特点及功能意义——从词汇层面分析IT领域的专业术语[J];桂林电子工业学院学报;2004年02期
5 苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期
6 刘立平,孟志青;一种选取初始聚类中心的方法[J];计算机工程与应用;2004年08期
7 马玉春,宋瀚涛;基于搜索引擎的知识发现[J];计算机工程与应用;2004年30期
8 李桂林,陈晓云;关于聚类分析中相似度的讨论[J];计算机工程与应用;2004年31期
9 石志伟,刘涛,吴功宜;一种快速高效的文本分类方法[J];计算机工程与应用;2005年29期
10 郑家恒,杜永萍,刘昌钰;基于语料的动态获取专业词汇方法初探[J];计算机工程;2002年05期
中国博士学位论文全文数据库 前1条
1 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 周琼;黄河;;基于百度百科的农业专业词汇自动获取方法研究[J];安徽农业科学;2009年14期
2 赵成龙,薛欣;基于WEB的智能答疑系统的设计与实现[J];安阳师范学院学报;2004年02期
3 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
4 杨家宽;科技术语的规范和统一刍议[J];编辑学报;2001年01期
5 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
6 祝迎新;对应规范在法律术语翻译中的应用[J];北京理工大学学报(社会科学版);2004年S1期
7 张玉英;孟海东;;数据挖掘技术中聚类算法的改进研究[J];包头钢铁学院学报;2005年04期
8 张艳宏;刘保延;郭玉峰;何丽云;胡镜清;彭锦;;框架理论及其在中医学研究领域的应用探讨[J];中华中医药杂志;2008年08期
9 陈可华;;文本自动分类新探究[J];赤峰学院学报(自然科学版);2011年04期
10 李湘云;;ISODATA动态聚类算法在文本挖掘中的应用[J];长春工程学院学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前10条
1 刘善涛;李敏;;基于信息库的新词词汇共性分析与教学策略研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 于伟昌;;汉译外来语言学术语标准化的必要性及其原则[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
3 陈晶;;汉俄科技术语词典中若干问题分析[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
4 张金忠;;对建构汉俄科技术语词典编纂理论的思考[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
5 赵巍;;翻译学术语规范化的实践及效果反思[A];译学辞典与翻译研究——第四届全国翻译学辞典与翻译理论研讨会论文集[C];2007年
6 史东娜;王枞;李卫;;车牌识别领域的中文术语自动抽取[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
7 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 朱学锋;俞士汶;李峰;;汉语语素库的构造及其同语法信息词典的集成[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
10 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
2 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
3 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
4 张珊;REST式GIS服务聚合研究及软件开发[D];华东师范大学;2011年
5 孙兴义;清代《诗经》阐释的诗学问题研究[D];云南大学;2011年
6 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
7 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
8 王迈;语言形式化原理[D];上海外国语大学;2011年
9 叶其松;术语学核心术语研究[D];黑龙江大学;2010年
10 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
中国硕士学位论文全文数据库 前10条
1 吴丹;语言学术语汉译规范化研究[D];南昌航空大学;2010年
2 薛萍;梁启超的“新学语”与中国古代文论的转型[D];中国海洋大学;2010年
3 孟桂国;基于维基百科的双语语料挖掘技术研究[D];苏州大学;2010年
4 李玲玲;基于层次聚类的模糊聚类算法的研究[D];合肥工业大学;2010年
5 王莹;从互联网上挖掘双语语料的研究与实现[D];华东师范大学;2011年
6 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年
7 林娜;高中生物学教学中学生专业术语表达能力培养的研究[D];华东师范大学;2010年
8 杨红颖;基于多Agent技术的智能化网络教学系统研究与设计[D];大连海事大学;2010年
9 孙萍;面向事件的多文档自动文摘研究[D];江苏大学;2010年
10 司圣涛;领域知识库的构建方法及其应用研究[D];昆明理工大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 M.A.K.韩礼德;姜望琪;付毓玲;;篇章、语篇、信息——系统功能语言学视角[J];北京大学学报(哲学社会科学版);2011年01期
2 王化鹏;论现代汉语词的双音节化及其发展规律[J];北方论丛;2000年06期
3 陈庆欣;李新军;万敏;;基于实例的飞机板金工艺知识库的构建[J];北京航空航天大学学报;2006年06期
4 丁向民;顾宏斌;;一种划分航空知识点类型的方法[J];长沙航空职业技术学院学报;2007年04期
5 余富林;汉语缩略语词典的现状及对策[J];辞书研究;2002年01期
6 王馥芳,罗敏莉;语料库词典学的兴起与发展[J];辞书研究;2004年05期
7 郑述谱;;专科词典编纂的学科依托——术语学[J];辞书研究;2008年06期
8 胡明晖;基于知识源的专家系统知识获取技术[J];成组技术与生产现代化;2005年02期
9 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
10 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
中国重要会议论文全文数据库 前2条
1 许勇;宋柔;;基于百科词典的知识获取系统的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前8条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
3 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
4 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
5 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
6 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
7 李卫;领域知识的获取[D];北京邮电大学;2008年
8 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年
中国硕士学位论文全文数据库 前5条
1 贾爱平;科技文献中术语定义的语言模式研究[D];北京语言文化大学;2002年
2 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
3 张志田;无监督关系抽取方法研究[D];哈尔滨工业大学;2007年
4 张虹;飞机复合材料构件工装设计知识库系统研究与开发[D];南京航空航天大学;2008年
5 黄鑫;基于特征向量的中文实体间语义关系抽取研究[D];苏州大学;2009年
【二级引证文献】
中国期刊全文数据库 前10条
1 陈宇;朱建锋;吴毅坚;赵文耘;;一种基于领域本体的新术语扩充方法[J];计算机工程;2011年07期
2 钱程;阳小兰;;一种支持Ajax框架的网络爬虫的设计与实现[J];计算机与数字工程;2012年04期
3 黄坤;董晓明;张剑;;Intranet搜索引擎设计与实现[J];计算机与数字工程;2012年05期
4 王卫民;贺冬春;符建辉;;基于种子扩充的专业术语识别方法研究[J];计算机应用研究;2012年11期
5 宋培彦;;术语知识表示模型研究[J];情报理论与实践;2012年08期
6 祝清松;冷伏海;王林;韩涛;;英文科技文献内核识别方法研究[J];情报理论与实践;2012年09期
7 祝清松;冷伏海;;自动术语识别存在的问题及发展趋势综述[J];图书情报工作;2012年18期
8 周杰;丁遒劲;吴雯娜;曾建勋;;网络环境下国家叙词库的构建研究[J];图书情报工作;2013年16期
9 颜端武;李兰彬;曲美娟;;基于N-gram复合分词的领域概念自动获取方法研究[J];情报理论与实践;2014年02期
10 宋培彦;路青;刘宁静;;一种从术语定义句中自动抽取知识单元的方法[J];情报杂志;2014年04期
中国硕士学位论文全文数据库 前7条
1 陈宇;基于特定领域本体的术语扩充方法[D];复旦大学;2010年
2 王晶;无监督的中文实体关系抽取研究[D];华东师范大学;2012年
3 胡健坤;基于齐次马尔可夫链的中文新术语识别方法研究[D];华南理工大学;2012年
4 唐守忠;文本挖掘关键技术研究[D];北京林业大学;2013年
5 廉营;基于语义角色标注的微博人物关系抽取[D];哈尔滨工业大学;2013年
6 杨晓冬;基于本体的作战文书分词的关键技术研究[D];杭州电子科技大学;2014年
7 孟洪宇;基于条件随机场的《伤寒论》中医术语自动识别研究[D];北京中医药大学;2014年
【二级参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
3 李飞,陈梅;数据挖掘中关联规则挖掘算法的改进及其应用[J];贵州大学学报(自然科学版);2003年02期
4 张儒良,王翰虎;论数据挖掘优化教学管理[J];贵州民族学院学报(哲学社会科学版);2004年02期
5 刘宏彬,邓洪志,路松峰;聚类布尔和分类数据[J];华中科技大学学报;2001年03期
6 周水庚,周傲英,曹晶;基于数据分区的DBSCAN算法[J];计算机研究与发展;2000年10期
7 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
8 李蕾,钟义信,郭祥昊;全信息理论在自动文摘系统中的应用[J];计算机工程与应用;2000年01期
9 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
10 张伟;廖晓峰;吴中福;;一种基于遗传算法的聚类新方法[J];计算机科学;2002年06期
中国重要会议论文全文数据库 前4条
1 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 李芸;王强军;;信息技术领域术语字频、词频及术语长度统计[A];第一届学生计算语言学研讨会论文集[C];2002年
3 朱凯;周杰;何婷婷;;因特网语料自动下载分析软件的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 郑家恒;杜永萍;宋礼鹏;;农业病虫害词汇获取方法初探[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前1条
1 高飞;关联规则挖掘算法研究[D];西安电子科技大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 黄凯;科技术语定义的组成和写作方法[J];科技英语学习;1995年11期
2 张榕;;术语定义的聚类研究[J];中国科技术语;2011年01期
3 黄海翔;;“孙子兵法”军语英译策略探析[J];术语标准化与信息技术;2009年02期
4 裴亚军;;首届“面向翻译的术语研究”全国学术研讨会在南京召开[J];中国科技术语;2010年06期
5 杜文华;本体构建方法比较研究[J];情报杂志;2005年10期
6 王有志;;科技术语定义的特点与常见问题[J];中国科技术语;2007年03期
7 那日松;;标点符号在法律术语自动抽取研究中的作用[J];中国科技术语;2009年04期
8 简·W·F·莫尔德;榕培;雅云;;公理语言学的基础[J];外语与外语教学;1990年05期
9 张镇寰;胥春雷;;理论术语的经验主义解释[J];云南师范大学学报(哲学社会科学版);2007年06期
10 ;《术语标准化与信息技术》2009年第1~4期总目录[J];术语标准化与信息技术;2009年04期
中国重要会议论文全文数据库 前10条
1 杨雪梅;林端宜;沈国俊;赖新梅;周常恩;;中药功效术语体系库的建立[A];2009年全国中药学术研讨会论文集[C];2009年
2 王当利;;船舶消防理论中若干术语释疑[A];船舶航行与安全管理论文集——中国航海学会内河船舶驾驶专业委员会学术研讨会文选[C];2002年
3 王强军;张普;;面向术语定义识别的语料库建设研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 蒲义书;陈水利;;关于几类L—Fuzzy拓扑空间[A];中国系统工程学会模糊数学与模糊系统委员会第五届年会论文选集[C];1990年
5 孙金莲;;解读国标《制药机械术语》2008修订版[A];兴业杯第四届中国制药装备论文集[C];2008年
6 王强军;张莉;张普;;面向术语提取和定义识别的评测语料库建设[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 郭小青;高新彦;焦振廉;张淑珍;王相东;李蕾;王李雯;;中医诊断学术语及术语体系规范的研究[A];中华中医药学会第九次中医诊断学术会议论文集[C];2008年
8 孙茂圣;李斌;;一种分布式本体融合及冗语关系约简算法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
9 吕登龙;王宇;;基于Web的攻击分类法研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 余建平;;聚脲材料及其在各领域应用[A];新防水堵漏工程标准宣贯与技术研讨会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 陈天翔;保监会下发保险术语行业标准[N];第一财经日报;2006年
2 唐召明;标准缺失制约产业化进程[N];中国质量报;2006年
3 冯文礼;《奥运体育项目名词》16个月冲刺而出[N];中国新闻出版报;2008年
4 山西省老促会科技信息委员会 陈伯华;动物防疫的相关术语定义与实施[N];瓜果蔬菜报.农业信息周刊;2006年
5 ;用新概念置换《吸油烟机》标准老概念[N];消费日报;2007年
6 中国电子科技集团第十三研究所LED研发中心研究员 张万生;标准和装备是突出问题[N];中国电子报;2010年
7 李薇;中国奶业标准之争愈演愈烈[N];北京商报;2007年
8 ;韩国发布转基因食品标签标准修订提案[N];中国国门时报;2007年
9 本报记者 孟庆伟;社区服务贴近市民[N];山西经济日报;2003年
10 高文;缓/控释肥行业亟待规范[N];江苏农业科技报;2007年
中国博士学位论文全文数据库 前3条
1 潘湑;航空领域术语定义抽取关键技术及其应用研究[D];南京航空航天大学;2011年
2 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
3 宫运启;基于知识的大型机电产品制造能耗模型及预测的研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 贾爱平;科技文献中术语定义的语言模式研究[D];北京语言文化大学;2002年
2 孙蝉娟;航空器及其安全领域术语定义的自动抽取[D];南京航空航天大学;2010年
3 周任材;中药主治信息的术语规范化研究及应用[D];福建中医学院;2009年
4 孙勤红;航空领域知识自动提取技术初步研究[D];南京航空航天大学;2008年
5 孙亚男;项目需求分析管理构件研究[D];山东大学;2006年
6 陈雪;俄语计算机术语的构成及语义问题研究[D];黑龙江大学;2009年
7 陈昌熊;复合词分析及其在信息检索中的应用[D];上海交通大学;2008年
8 张靖男;基于标准化原理的HLA规范分析[D];中国人民解放军国防科学技术大学;2002年
9 赵欣;基于最大熵的中文术语抽取系统的设计与实现[D];西安电子科技大学;2012年
10 左晓栋;信息安全产品与系统的测评与标准研究[D];中国科学院研究生院(电子学研究所);2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026