收藏本站
《南京理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

中文术语抽取若干问题研究

周浪  
【摘要】: 术语,作为专业知识的集中载体,它的创建、普及和消亡,动态展现了一个学科的发展、演变历程。专业术语数据库作为一种知识源,能够为各类研究人员便捷地获取专业知识提供重要支持。术语自动抽取是构建专业术语库的关键技术,同时也是自然语言处理领域中的一项基本课题,为包括机器翻译、文档摘要、信息检索、文本分类、词典编纂等在内的诸多自然语言研究起到支撑作用。 本文突破了名词短语的限制,接纳更多非名词性结构的专业术语,拓宽了语言规则。结合实证分析和机器学习策略,分别从结构完整性、领域相关度和词语搭配三个方面展开研究,主要工作包括: 1.以词为最小语言单位,构建一个涵盖四万余条计算机专业术语的数据库。针对不同长度术语的分布特性,结合机器学习方法从多角度提炼出术语结构的词法特征。丰富语言规则的同时,扩大了规则覆盖面,提高术语抽取的召回率。 2.针对单词型术语结构简单,边界清晰的特征,提出一种基于模糊聚类的识别算法。将术语识别过程成功转化为二值分类任务,无需专业辞典和诸多语料库的支持,实现单词型术语的自动聚合标注。 3.不同于已有方法中采用单一父串到多子串的归并策略,本文从单一子串与多父串之间的逆向映射关系出发,提出了一种基于独立性统计的子串归并算法,以此判断候选术语的结构完整性。实验表明,在O(n)的时间内,该算法不仅可以删除普通子串,还能有效过滤由公共子串造成的干扰,将候选术语集有效缩减29.44%。 4.以非名词性词语的构词能力为研究对象,提出了“词汇活跃度”(Word Active Degree, WAD)的概念。同时结合词汇间粘合度,分析短语内部词语的搭配特征,过滤掉非良性搭配和局部成分过分活跃的短语。实验表明,采用WAD作为词语搭配评判标准,对由动宾短语和介词短语引发的错误有较强的识别能力,正确率高达99.97%。 5.根据术语和非术语在语料库中变化趋势的分布差异性,结合局部及全局特征,提出了一种基于分布变化特征的领域相关度计算方法。实验表明,该方法不仅能够大幅降低计算复杂度,还可以显著提升低频术语和基础术语在输出结果中的排序。
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 那日松;刘青;朱磊;;法律术语特征研究[J];中国科技术语;2011年04期
中国硕士学位论文全文数据库 前1条
1 廖福燕;本体构建中概念和关系获取方法研究[D];西安建筑科技大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 王馥芳,罗敏莉;语料库词典学的兴起与发展[J];辞书研究;2004年05期
2 郑述谱;;专科词典编纂的学科依托——术语学[J];辞书研究;2008年06期
3 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
4 吕学强,张乐,黄志丹,胡俊峰;基于散列技术的快速子串归并算法[J];复旦学报(自然科学版);2004年05期
5 何燕;穗志方;段慧明;俞士汶;;一种结合术语部件库的术语提取方法[J];计算机工程与应用;2006年33期
6 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
7 何婷婷;张勇;;基于质子串分解的中文术语自动抽取[J];计算机工程;2006年23期
8 王萌;李春贵;唐培和;王晓荣;;一种主题句发现的中文自动文摘研究[J];计算机工程;2007年08期
9 李勇;;基于聚类方法对特定领域术语的自动筛选[J];计算机工程与科学;2008年02期
10 胡文敏;何婷婷;张勇;;基于卡方检验的汉语术语抽取[J];计算机应用;2007年12期
【共引文献】
中国期刊全文数据库 前10条
1 王成;吕学强;王弘蔚;王涛;;基于信息熵与词语活跃度的领域词抽取[J];北京信息科技大学学报(自然科学版);2011年05期
2 傅继彬;樊孝忠;毛金涛;余正涛;;基于语言特性的中文领域术语抽取算法[J];北京理工大学学报;2010年03期
3 杨家宽;科技术语的规范和统一刍议[J];编辑学报;2001年01期
4 祝迎新;对应规范在法律术语翻译中的应用[J];北京理工大学学报(社会科学版);2004年S1期
5 张艳宏;刘保延;郭玉峰;何丽云;胡镜清;彭锦;;框架理论及其在中医学研究领域的应用探讨[J];中华中医药杂志;2008年08期
6 杨秀珍;续娜;刘美瑜;;基于语料库的《暮光之城》系列小说词汇特点初探[J];长春理工大学学报(社会科学版);2010年02期
7 崔乐;;语料库在《对外汉语新词语词典》微观结构中的运用[J];重庆理工大学学报(社会科学);2011年10期
8 夏晓云;;从两岸三地的翻译方式看英语术语汉译的本土化和规范化[J];长沙大学学报;2009年06期
9 张春泉;;王国维的术语学思想[J];长沙理工大学学报(社会科学版);2010年02期
10 张春泉;;《公孙龙子》的术语学思想——兼析《荀子》与《公孙龙子》术语学思想的“共相”[J];长沙理工大学学报(社会科学版);2011年04期
中国重要会议论文全文数据库 前10条
1 于伟昌;;汉译外来语言学术语标准化的必要性及其原则[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
2 陈晶;;汉俄科技术语词典中若干问题分析[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
3 张金忠;;对建构汉俄科技术语词典编纂理论的思考[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
4 隋岩;张普;;基于动态流通语料库的“动态词典”编纂[A];中国辞书论集2000[C];2000年
5 赵巍;;翻译学术语规范化的实践及效果反思[A];译学辞典与翻译研究——第四届全国翻译学辞典与翻译理论研讨会论文集[C];2007年
6 史东娜;王枞;李卫;;车牌识别领域的中文术语自动抽取[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
7 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
8 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
9 王开扬;;中国语文现代化理论再认识[A];语文现代化论丛(第七辑)[C];2006年
10 唐勇;黄利强;;规范纸包装结构术语的探讨[A];第十三届全国包装工程学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孙兴义;清代《诗经》阐释的诗学问题研究[D];云南大学;2011年
2 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
3 叶其松;术语学核心术语研究[D];黑龙江大学;2010年
4 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
5 裘禾敏;《孙子兵法》英译研究[D];浙江大学;2011年
6 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
7 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
8 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
9 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
10 赵静;司法判词的表达与实践——以古代判词为中心[D];复旦大学;2004年
中国硕士学位论文全文数据库 前10条
1 吴丹;语言学术语汉译规范化研究[D];南昌航空大学;2010年
2 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
3 林娜;高中生物学教学中学生专业术语表达能力培养的研究[D];华东师范大学;2010年
4 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
5 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
6 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
7 吴倩倩;基于语义Web的智能问答系统的研究与实现[D];北京交通大学;2011年
8 刘炳璐;汉语股市用语研究[D];曲阜师范大学;2011年
9 高爽;基于语料库的海事英语术语提取研究[D];大连海事大学;2011年
10 杨振;基于统计的用户网络行为分析和预测[D];北京邮电大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
2 李林;刘贺欢;刘椿年;;Ontology自动构建平台OntoAGS[J];计算机工程;2006年13期
3 温春;石昭祥;辛元;;基于扩展关联规则的中文非分类关系抽取[J];计算机工程;2009年24期
4 韦小丽;孙涌;张书奎;苗艳军;;基于最大熵模型的本体概念获取方法[J];计算机工程;2009年24期
5 温春;石昭祥;张亮;;中文领域本体概念层次获取方法对比研究[J];计算机应用研究;2009年08期
6 张玉芳;杨芬;熊忠阳;陈小莉;;基于上下文的领域本体概念和关系的提取[J];计算机应用研究;2010年01期
7 张俊;高志强;徐惠;蔡施彦;戴云徽;;一种基于Bootstrapping的本体学习方法[J];南京师范大学学报(工程技术版);2008年04期
8 方卫东,袁华,刘卫红;基于Web挖掘的领域本体自动学习[J];清华大学学报(自然科学版);2005年S1期
9 杜小勇;李曼;王珊;;本体学习研究综述[J];软件学报;2006年09期
10 牟晋娟;包宏;;中文实体关系抽取研究[J];计算机工程与设计;2009年15期
中国重要会议论文全文数据库 前1条
1 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前2条
1 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
2 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前1条
1 刘威;基于中文文本的本体构建方法研究[D];哈尔滨工程大学;2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 那日松;刘青;陈永朝;朱磊;;法律领域术语部件的描述[J];中国科技术语;2011年06期
【二级参考文献】
中国期刊全文数据库 前10条
1 冯兰萍,张继国;基于本体的中文信息检索模型[J];河海大学常州分校学报;2004年04期
2 行小帅,潘进,焦李成;基于免疫规划的K-means聚类算法[J];计算机学报;2003年05期
3 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
4 李琼;系统聚类分析中的遗传算法[J];武汉交通科技大学学报;2000年03期
5 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
6 张昱琪,周强;汉语基本短语的自动识别[J];中文信息学报;2002年06期
7 陈博兴,杜利民;基于双语语料的单个源语词汇和目标语多词单元的对齐[J];中文信息学报;2003年01期
8 罗盛芬,孙茂松;基于字串内部结合紧密度的汉语自动抽词实验研究[J];中文信息学报;2003年03期
9 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
10 周强;汉语短语的自动划分和标注[J];中文信息学报;1997年01期
中国重要会议论文全文数据库 前2条
1 郑家恒;杜永萍;宋礼鹏;;农业病虫害词汇获取方法初探[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国期刊全文数据库 前10条
1 潘虹;徐朝军;;LCS算法在术语抽取中的应用研究[J];情报学报;2010年05期
2 田怀凤;;基于多策略的专业术语抽取处理技术的研究[J];计算机与现代化;2008年12期
3 梁颖红;张文静;张有承;;C值和互信息相结合的术语抽取[J];计算机应用与软件;2010年04期
4 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
5 周浪;冯冲;黄河燕;;一种面向术语抽取的短语过滤技术[J];计算机工程与应用;2009年19期
6 孙乐,金友兵,杜林,孙玉芳;平行语料库中双语术语词典的自动抽取[J];中文信息学报;2000年06期
7 张文静;梁颖红;;术语抽取技术研究[J];信息技术;2008年03期
8 林磊;孙承杰;张二艳;刘秉权;;一种基于改进似然比的术语自动抽取方法[J];广西师范大学学报(自然科学版);2010年01期
9 程斌;张水茂;;基于统计与规则的术语抽取[J];科技广场;2009年09期
10 刘俊杰;黄圆圆;任智军;崔碧莹;;基于浅层句法分析的术语抽取研究[J];微计算机信息;2010年18期
中国重要会议论文全文数据库 前10条
1 王海雄;郭剑毅;余正涛;毛存礼;张朝胜;雷春雅;;基于CRFs的中文领域术语自动抽取研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 邱艳霞;余正涛;张志坤;司圣涛;韩露;孟祥燕;;领域术语自动抽取方法研究[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 ;Automatic Domain-specific Term Extraction System Based on Hybrid Approaches[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 章成志;王惠临;;基于专业领域平行语料的双语核心术语抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
6 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
7 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 刘亚斌;李爱军;;朗读语料与自然口语的差异分析[A];第六届全国人机语音通讯学术会议论文集[C];2001年
10 李勇龙;王承发;徐近霈;;特定领域电话语音数据库的建立[A];第四届全国人机语音通讯学术会议论文集[C];1996年
中国重要报纸全文数据库 前10条
1 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
2 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
3 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
4 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
5 本报记者 姚从权;我国自己的大规模口语库即将建成[N];中国社会科学院院报;2004年
6 通讯员 侯晓斌;运用现代科学技术研究中国传统文化[N];中国社会科学院院报;2006年
7 本报记者 杨阳;瓦特开元:一条翻译流水线[N];经济观察报;2007年
8 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
9 江获;数据库是语言学家的重要工具[N];中国社会科学院院报;2004年
10 富士通中国研究开发中心总经理 石崎洋之;不尊重知识产权将丧失一切[N];光明日报;2002年
中国博士学位论文全文数据库 前10条
1 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
2 李卫;领域知识的获取[D];北京邮电大学;2008年
3 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
4 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
5 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
6 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
7 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
8 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
9 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
10 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 李丹;特定领域中文术语抽取[D];大连理工大学;2011年
2 吴保珍;媒体流行语获取研究[D];华中师范大学;2009年
3 段国成;基于CCD的术语抽取研究[D];郑州大学;2007年
4 唐涛;面向特定领域的中文分词技术的研究[D];沈阳航空航天大学;2012年
5 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
6 史东娜;基于半监督学习的特定领域术语抽取算法的研究[D];北京邮电大学;2009年
7 张勇;中文术语自动抽取相关方法研究[D];华中师范大学;2006年
8 王可为;基于统计的双语术语自动抽取[D];南京理工大学;2007年
9 刘磊;面向专利的双语术语自动抽取技术的研究[D];沈阳航空工业学院;2009年
10 桑爱菊;基于Text2Onto的中文本体学习技术研究[D];中国海洋大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026