收藏本站
《西安电子科技大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于最大熵的中文术语抽取系统的设计与实现

赵欣  
【摘要】:在阅读学术资料时,人们总是希望能迅速准确地把握文章中的术语词及其定义,从而能更好地理解和把握主题;在自然语言处理的工作中,研究者也希望通过对术语的正确识别来为其它深层的研究提供支持。因此本文对中文术语抽取和中文术语定义抽取展开研究,并设计实现了基于最大熵的中文术语抽取系统,它包括中文术语抽取子系统和中文术语定义抽取子系统。 中文术语抽取子系统基于最大熵进行术语抽取。它利用大量的已有术语,学习其内部结构特征,借助最大熵工具来训练分类模型,通过该模型对候选术语词进行分类来判定其是否为术语词。评测结果显示,该系统术语抽取的准确率可达63.75%,召回率可达到78.84%;中文术语定义抽取子系统结合多个知识库,从网络中查询并抽取术语词的准确释义;本文设计实现的基于最大熵的中文术语抽取系统还基于AJAX技术,提供了用户反馈的功能,通过用户提交的识别错误升级完善系统。 此系统能够准确快速地对中文文本进行术语及其定义的抽取,其界面简洁美观,给用户处理术语带来了很大的方便。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 王馥芳,罗敏莉;语料库词典学的兴起与发展[J];辞书研究;2004年05期
2 何燕;穗志方;段慧明;俞士汶;;一种结合术语部件库的术语提取方法[J];计算机工程与应用;2006年33期
3 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
4 王萌;李春贵;唐培和;王晓荣;;一种主题句发现的中文自动文摘研究[J];计算机工程;2007年08期
5 李勇;;基于聚类方法对特定领域术语的自动筛选[J];计算机工程与科学;2008年02期
6 胡文敏;何婷婷;张勇;;基于卡方检验的汉语术语抽取[J];计算机应用;2007年12期
7 张锋,许云,侯艳,樊孝忠;基于互信息的中文术语抽取系统[J];计算机应用研究;2005年05期
8 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
9 张艳,宗成庆,徐波;汉语术语定义的结构分析和提取[J];中文信息学报;2003年06期
10 姜柄圭;张秦龙;谌贻荣;常宝宝;;面向机器辅助翻译的汉语语块自动抽取研究[J];中文信息学报;2007年01期
中国博士学位论文全文数据库 前3条
1 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
2 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
3 李卫;领域知识的获取[D];北京邮电大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 杨家宽;科技术语的规范和统一刍议[J];编辑学报;2001年01期
2 祝迎新;对应规范在法律术语翻译中的应用[J];北京理工大学学报(社会科学版);2004年S1期
3 张艳宏;刘保延;郭玉峰;何丽云;胡镜清;彭锦;;框架理论及其在中医学研究领域的应用探讨[J];中华中医药杂志;2008年08期
4 杨秀珍;续娜;刘美瑜;;基于语料库的《暮光之城》系列小说词汇特点初探[J];长春理工大学学报(社会科学版);2010年02期
5 崔乐;;语料库在《对外汉语新词语词典》微观结构中的运用[J];重庆理工大学学报(社会科学);2011年10期
6 夏晓云;;从两岸三地的翻译方式看英语术语汉译的本土化和规范化[J];长沙大学学报;2009年06期
7 张春泉;;王国维的术语学思想[J];长沙理工大学学报(社会科学版);2010年02期
8 张春泉;;《公孙龙子》的术语学思想——兼析《荀子》与《公孙龙子》术语学思想的“共相”[J];长沙理工大学学报(社会科学版);2011年04期
9 黄忠廉;;我国外语界术语学研究综述[J];辞书研究;2010年02期
10 冯文杰;徐海静;黄建军;;从外文对应词看《DA/T1-2000档案工作基本术语》的修改[J];档案学通讯;2011年02期
中国重要会议论文全文数据库 前10条
1 于伟昌;;汉译外来语言学术语标准化的必要性及其原则[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
2 陈晶;;汉俄科技术语词典中若干问题分析[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
3 张金忠;;对建构汉俄科技术语词典编纂理论的思考[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
4 隋岩;张普;;基于动态流通语料库的“动态词典”编纂[A];中国辞书论集2000[C];2000年
5 赵巍;;翻译学术语规范化的实践及效果反思[A];译学辞典与翻译研究——第四届全国翻译学辞典与翻译理论研讨会论文集[C];2007年
6 史东娜;王枞;李卫;;车牌识别领域的中文术语自动抽取[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
7 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
8 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
9 王开扬;;中国语文现代化理论再认识[A];语文现代化论丛(第七辑)[C];2006年
10 唐勇;黄利强;;规范纸包装结构术语的探讨[A];第十三届全国包装工程学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
2 孙兴义;清代《诗经》阐释的诗学问题研究[D];云南大学;2011年
3 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
4 叶其松;术语学核心术语研究[D];黑龙江大学;2010年
5 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
6 裘禾敏;《孙子兵法》英译研究[D];浙江大学;2011年
7 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
8 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
9 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
10 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
中国硕士学位论文全文数据库 前10条
1 吴丹;语言学术语汉译规范化研究[D];南昌航空大学;2010年
2 司贺华;网络内容审计系统关键技术研究与实现[D];哈尔滨工程大学;2010年
3 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
4 林娜;高中生物学教学中学生专业术语表达能力培养的研究[D];华东师范大学;2010年
5 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
6 司圣涛;领域知识库的构建方法及其应用研究[D];昆明理工大学;2009年
7 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
8 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
9 吴倩倩;基于语义Web的智能问答系统的研究与实现[D];北京交通大学;2011年
10 刘升友;海上救助专家知识库建立及推理机的研究[D];大连海事大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
2 张建合;学术期刊编辑初审探微[J];编辑学报;2003年01期
3 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
4 黎服兵;;计算机辅助编辑与出版自动化[J];编辑之友;1989年06期
5 赵迎红,许淳熙;计算机辅助编辑系统初探[J];出版科学;2000年04期
6 夏亮,郑万波,王智;包过滤系统中关键字过滤的实现及其性能分析[J];吉林大学学报(信息科学版);2003年02期
7 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
8 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
9 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
10 钟义信;关于“信息-知识-智能转换规律”的研究[J];电子学报;2004年04期
中国重要会议论文全文数据库 前1条
1 郑家恒;杜永萍;宋礼鹏;;农业病虫害词汇获取方法初探[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前1条
1 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
中国硕士学位论文全文数据库 前5条
1 黄瑞;基于KDD的知识自动获取及其应用[D];南京信息工程大学;2005年
2 张勇;中文术语自动抽取相关方法研究[D];华中师范大学;2006年
3 杨柳;基于文本的中文本体知识获取的研究[D];中国科学院研究生院(计算技术研究所);2006年
4 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
5 翟林;领域本体的半自动构建方法研究与实现[D];东南大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 潘虹;徐朝军;;LCS算法在术语抽取中的应用研究[J];情报学报;2010年05期
2 魏文铎;非晶态物质径向分布函数测定的最大熵方法[J];物理学报;1986年02期
3 胡乃全;孔芳;王海东;周国栋;朱巧明;;基于最大熵模型的中文指代消解系统实现[J];计算机应用研究;2009年08期
4 徐延勇,郭忠伟,周献中;基于最大熵方法的统计语言模型[J];计算机工程与应用;2002年05期
5 程斌;张水茂;;基于统计与规则的术语抽取[J];科技广场;2009年09期
6 刘俊杰;黄圆圆;任智军;崔碧莹;;基于浅层句法分析的术语抽取研究[J];微计算机信息;2010年18期
7 田怀凤;;基于多策略的专业术语抽取处理技术的研究[J];计算机与现代化;2008年12期
8 梁颖红;张文静;张有承;;C值和互信息相结合的术语抽取[J];计算机应用与软件;2010年04期
9 季培培;鄢小燕;岑咏华;;面向领域中文文本信息处理的术语识别与抽取研究综述[J];图书情报工作;2010年16期
10 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
中国重要会议论文全文数据库 前10条
1 王海雄;郭剑毅;余正涛;毛存礼;张朝胜;雷春雅;;基于CRFs的中文领域术语自动抽取研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 ;Automatic Domain-specific Term Extraction System Based on Hybrid Approaches[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 邱艳霞;余正涛;张志坤;司圣涛;韩露;孟祥燕;;领域术语自动抽取方法研究[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 章成志;王惠临;;基于专业领域平行语料的双语核心术语抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 郭春营;林源根;姜猛;吴昌莉;;基于最大熵方法确定失效分布函数方法的初步分析[A];第七届全国核仪器及其应用学术会议暨全国第五届核反应堆用核仪器学术会议论文集[C];2009年
6 王怀斌;李方华;;再研究最大熵解卷的真解问题[A];第十二届全国电子显微学会议论文集[C];2002年
7 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年
9 王佳;;对中文屋思想实验四个主要版本的考察[A];第三届全国科技哲学暨交叉学科研究生论坛文集[C];2010年
10 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 张海桐;用中文把歌剧唱出来[N];人民日报海外版;2011年
2 张伟城;中文热持续升温[N];人民日报海外版;2009年
3 朱珉迕;说中文和“拌洋荤”[N];解放日报;2009年
4 本报驻巴黎记者 姚立;“中文热”在法升温速度令人始料不及[N];光明日报;2010年
5 刘菲;关注特殊的学中文群体[N];人民日报海外版;2011年
6 记者钟哲 通讯员李世举;合编首部“民族版”高校中文教材[N];中国社会科学报;2010年
7 ;“汉语桥”世界大学生中文比赛举行[N];人民日报;2011年
8 晓阳;《选报》落户起点中文网[N];中华新闻报;2009年
9 ;中文在线 “九死一生”的出版经历[N];电脑报;2010年
10 记者 仇国强 通讯员 赵红蓉;苏丹雇员掀起学中文热潮[N];中国石化报;2009年
中国博士学位论文全文数据库 前10条
1 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
2 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
3 李卫;领域知识的获取[D];北京邮电大学;2008年
4 周丽娟;P2P流媒体识别方法的研究[D];华中科技大学;2008年
5 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
6 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
7 朱麟;中国人说英语的节奏模式及在教学中的运用[D];中央民族大学;2007年
8 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
9 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
10 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 赵欣;基于最大熵的中文术语抽取系统的设计与实现[D];西安电子科技大学;2012年
2 李丹;特定领域中文术语抽取[D];大连理工大学;2011年
3 吴保珍;媒体流行语获取研究[D];华中师范大学;2009年
4 段国成;基于CCD的术语抽取研究[D];郑州大学;2007年
5 唐涛;面向特定领域的中文分词技术的研究[D];沈阳航空航天大学;2012年
6 史东娜;基于半监督学习的特定领域术语抽取算法的研究[D];北京邮电大学;2009年
7 王可为;基于统计的双语术语自动抽取[D];南京理工大学;2007年
8 孟江;最大熵频谱分析与反褶积研究[D];长安大学;2009年
9 刘磊;面向专利的双语术语自动抽取技术的研究[D];沈阳航空工业学院;2009年
10 桑爱菊;基于Text2Onto的中文本体学习技术研究[D];中国海洋大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026