收藏本站
《重庆大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于词联接的自然语言处理技术及其应用研究

李良炎  
【摘要】:随着人类社会信息化程度和计算机软硬件水平的提高,自然语言处理(Natural Language Processing,简称NLP)技术逐渐成为计算机应用和人工智能研究的热点,其基本技术目标是让计算机具有类似人的语言智能,例如能够象人一样听、说、读、写。围绕NLP技术逐渐形成了一个专门的学科——计算语言学。该学科属于交叉学科,涉及到语言学、心理学、心理语言学、脑科学、计算机科学、哲学、逻辑学、人工智能、数学、信息论、文学、美学等诸多学科或领域。从上个世纪中叶以来,虽然不同学科和领域的无数研究者投入了大量的研究资源,探索出了一些有效的技术,取得了一定的成果,但离实现基本技术目标还显得非常遥远。值此世纪之初,有必要从更高、更深的层面重新审视NLP技术的研究背景、目标和途径,在继承现有技术的基础上大胆创新,探索出切实可行、面向未来的新技术。本文在这个方向上作出了努力,以抛砖引玉,促进NLP技术的发展。 在国家自然科学基金项目“计算机辅助文学艺术创作研究——诗词曲联”(60173060,2002~2004)的支持下,在深入分析NLP技术背景的基础上,本文提出并初步构建了基于词联接的NLP技术(Term Connection Technique for NLP,简称TCT),并应用到诗词语言处理系统(Poetry Processing System,简称PPS)中。理论研究和应用研究的结果表明,TCT是一种继承并发展已有技术、高度综合与包容、操作性强、有效的NLP技术。本文的主要内容包括: 第1章介绍了TCT的技术背景,包括NLP的根本难点、现阶段NLP的根本目标、NLP技术的发展阶段和趋势,提出了一系列较为独特的观点。NLP的根本难点在于自然语言具有认识性和不确定性,现阶段目标应是受限语言智能仿知技术。这一目标是在分析了NLP根本难点、现阶段的计算机技术、已有人工智能和NLP研究成果的基础上提出来的,因此是切实可行的。NLP技术分为技术探索、规则技术兴起、统计技术兴起三个阶段,主要发展趋势是实例技术可能成为主流技术,规则技术和统计技术可能成为辅助技术。 第2章介绍了TCT的基本原理、技术结构、哲学基础、理论基础、方法基础,从宏观上初步构建了TCT。TCT的基本原理是基于受限自然语言环境建立动态语料库,基于动态语料库建立词联接实例知识库和高级知识库,基于知识库进行受限自然语言处理。TCT具有完整、简明、合理的技术结构,包括:TCT知识表示技术(TCTR)、TCT知识获取技术(TCTO)、TCT语言分析技术(TCTA)、TCT语言评价技术(TCTE)、TCT语言生成技术(TCTC)、TCT语言修改技术(TCTM)、TCT语言输入输出技术(TCTIO)。TCT的哲学基础是易学,这是本学位论文最具 重庆大学博士学位论文 特色的地方。易学是中国古代哲学的精华,具有朴素的唯物辩证思想和系统观, 对于认识和认识建模都具有很强的指导作用。TCT的理论基础是神经认知语言学, 该理论强调语言理论不悖于大脑神经事实,综合了联接主义和符号主义等理论的 长处,是一种面向NLP的语言学理论。TCT的方法基础是基于实例的知识加工, 以实例为基础,可以更好地综合各种知识加工技术。 第3、4、5、6章分别介绍了TCT技术结构中的TCTR、 TCTO、TCTA、TCTE, 从微观上初步构建了TCT。由于研究资源有限,本文在斟酌各个技术模块关系的 前提下,着重研究这四大模块。在每个技术模块的研究中都注意继承与创新相结 合,注意各个技术模块在功能上的独立性与系统性。与传统的NLP技术相比较, 各个技术模块都具有各自的特色和创新点:在TCTR中提出了自然语言知识结构 和要素、抽象概念树(Abstract concePt Tree,简称AcT)、体验语义和价值语义等; 在TCTO中提出了语言知识设计、语料标注规范、语言知识获取与管理等;在TCTA 中提出了词联接最大语义符合度计算和最优句树搜索的初级语言分析算法;在 TCTM中提出了豪放与婉约语言风格的计算模型。 第7章介绍了基于TCT的PPS开发和测试。由于构建TCT之初就认识到了 自然语言认识性中的体验性这一难点,而体验性是自然语言尤其是文学语言的重 要特征,因此TCT应当能够比传统的NLP技术更好地处理文学语言。诗词语言是 一种典型的文学语言,开发PPS对传统的NLP技术和TCT都是一种挑战。本文 基于当前水平的TCT开发了PPS,完成了语言知识类设计、语言知识库设计、模 块设计、界面设计,并在大量数据准备工作的基础上进行了诗词语料标注测试、 诗词语言初级分析测试、诗词语言豪放与婉约风格的评价测试。测试结果表明, PPS取得了成功,验证了TCT的有效性。 在论文的最后总结了研究成果,并指出了今后的主要研究方向。 关键词:自然语言处理,实例技术,词联接技术,诗词语言,语言风格评价
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP391.1

知网文化
【引证文献】
中国硕士学位论文全文数据库 前2条
1 游维;基于遗传算法的宋词自动生成研究[D];厦门大学;2007年
2 苏劲松;全宋词语料库建设及其风格与情感分析的计算方法研究[D];厦门大学;2007年
【参考文献】
中国期刊全文数据库 前10条
1 赵继明;现代西方易学对话[J];山西大学学报(哲学社会科学版);1999年04期
2 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
3 申斌;《周易》与现代数学、物理学中的“三论”[J];安阳大学学报;2002年03期
4 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
5 沈军;一个面向受限领域的汉语人机接口系统[J];东南大学学报;1996年05期
6 李良炎,何中市,易勇;基于词联接的语义分析原理及其算法[J];重庆大学学报(自然科学版);2004年08期
7 李良炎,何中市,易勇;基于词联接的语义表示方法和知识库建设[J];重庆大学学报(自然科学版);2004年04期
8 李朝虹,陆建湖;现代汉语自动分析研究现状综述[J];广西教育学院学报;2003年01期
9 赖朝安,孙延明,齐德昱,郑时雄;基于自然语言理解的专家系统研究[J];计算机工程;2003年01期
10 谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期
【共引文献】
中国期刊全文数据库 前10条
1 于桂敏;隐喻:一种跨学科的映射[J];中南民族大学学报(人文社会科学版);2003年06期
2 代金平;建立健全科学理论的评价体系[J];科学技术与辩证法;2002年03期
3 丁芹;基于格式语义格的自动标引和词相似度计算[J];情报理论与实践;2004年04期
4 赵海宝,马宁;汉语语法形式和语法意义的研究述评[J];吉林师范大学学报(人文社会科学版);2003年03期
5 代金平;科学理论的评判体系[J];石油大学学报(社会科学版);1997年02期
6 代金平,徐同文;自然科学理论的评价体系[J];聊城师院学报(自然科学版);2001年02期
7 杜黎;音乐教学中歌唱心理因素分析[J];阿坝师范高等专科学校学报;2003年03期
8 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
9 彭家法;形式语义学的历史渊源和理论框架[J];安徽大学学报(哲学社会科学版);2004年04期
10 彭家法;;照应的一般模式及其语用解释[J];安徽大学学报(哲学社会科学版);2006年02期
中国重要会议论文全文数据库 前10条
1 洪忻;;网上语言翻译的质量改进策略[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
2 孙守迁;王鑫;刘涛;汤永川;;音乐情感的语言值计算模型研究[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
3 崔冰清;;参见的认知研究[A];中国辞书学会双语词典专业委员会第6届年会暨学术研讨会论文专辑[C];2005年
4 徐文堪;;信息革命时代的语言理论和词典编纂[A];中国辞书论集2000[C];2000年
5 徐时仪;;面向新世纪的网络词典编纂刍探[A];中国辞书论集2001[C];2001年
6 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
7 蒲松龄;;隐喻构建基本要素及其与隐喻理解效果的关系[A];福建省外国语文学会2006年年会暨学术研讨会论文集(上)[C];2006年
8 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 徐德宽;;现代汉语双宾构造中两个宾语的题元角色[A];第六届汉语词汇语义学研讨会论文集[C];2005年
10 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 王葆华;动词的语义及论元配置[D];复旦大学;2003年
2 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
3 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
4 刘壮;文体理论与应用文源流研究[D];首都师范大学;2006年
5 李桃;烧结过程智能实时操作指导系统的研究[D];中南大学;2000年
6 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
7 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
8 姜宁;电子对抗仿真系统中的多属性决策理论模型与方法研究[D];大连理工大学;2000年
9 黄东晶;俄汉代词指示语对比研究[D];黑龙江大学;2001年
10 李长吉;教学价值观念透视与反省[D];西北师范大学;2001年
中国硕士学位论文全文数据库 前10条
1 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
2 曾慧宏;面向网络学习的知识服务平台及检索方法研究[D];中南大学;2005年
3 邢宣宇;基于主题会话的语义分析工具的研制[D];湖南大学;2005年
4 周波;汉语语言处理中专有名词的提取和识别[D];电子科技大学;2006年
5 闫峰;大学生心理咨询专家系统的研究和实现[D];湖南大学;2006年
6 诺明花;维吾尔语孤立词和连续数字语音识别系统的设计与实现[D];新疆大学;2006年
7 宁春勇;人工智能能否超越人类智能?[D];河南大学;2007年
8 王晓军;语用模糊理论综观[D];吉林大学;2005年
9 翟凤文;统计与字典相结合的中文分词[D];吉林大学;2005年
10 龙桂杰;体验科技[D];广西大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期
2 王挺;麦范金;刘忠;;自然语言处理及其应用前景的研究[J];桂林航天工业高等专科学校学报;2006年04期
3 李运富;;论汉字结构的演变[J];河北大学学报(哲学社会科学版);2007年02期
4 刘秉权,王晓龙;一种面向用户的语言模型及其机器学习方法[J];哈尔滨工业大学学报;2004年02期
5 石跃祥,蔡自兴;图像语义的模型结构描述[J];计算机工程与应用;2004年20期
6 陈燕敏,王晓龙,刘远超,楼喜中;一种基于文章主题和内容的自动摘要方法[J];计算机工程与应用;2004年33期
7 闫琪,张志伟,宁洪;用户搜索请求中限定成分的识别及提取[J];计算机工程与科学;2000年03期
8 薛德黔;交互式自然口语语音识别关键技术[J];计算机应用;2002年07期
9 李芳,盛焕烨,姚天昉;信息检索与信息抽取技术的研究[J];计算机应用研究;2002年01期
10 李明琴,王作英,陆大■;语音识别音字转换中的快速容错算法[J];中文信息学报;2002年05期
中国重要会议论文全文数据库 前3条
1 刘秉权;张凯;王晓龙;;语音识别中基于规则的语言模型的研究[A];第五届全国人机语音通讯学术会议论文集[C];1998年
2 索宏彬;李明;吕萍;颜永红;;一种基于带语言模型并行音节解码器的语种识别系统[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
3 徐蔚然;张洪刚;郭军;;基于语法、语义信息的银行票据二值化算法的构造[A];2001年中国智能自动化会议论文集(下册)[C];2001年
中国博士学位论文全文数据库 前9条
1 石跃祥;计算机视觉图像语义模型的描述方法研究[D];中南大学;2005年
2 罗二虎;西南汉代画像与画像墓研究[D];四川大学;2002年
3 祁志祥;中国古代美学精神[D];复旦大学;2003年
4 马玉兰;宋代法帖研究[D];首都师范大学;2003年
5 李占喜;翻译过程的关联—顺应研究—文化意象处理举隅[D];广东外语外贸大学;2005年
6 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
7 冯民生;中西传统绘画空间表现比较研究[D];南京艺术学院;2006年
8 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
9 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
中国硕士学位论文全文数据库 前10条
1 彭涛;基于统计的汉字识别后处理研究[D];河北大学;2003年
2 柳浩;基于NPR技术的建筑CAD系统[D];浙江大学;2003年
3 孙宗保;基于计算机视觉的粒度检测应用研究[D];江苏大学;2003年
4 冯立波;从文本层次理论看汉诗英译文本的翻译批评问题[D];广东外语外贸大学;2004年
5 张海江;中国水墨画仿真中几个关键问题的研究[D];天津大学;2004年
6 马建斌;基于SVM的中文电子邮件作者身份挖掘技术研究[D];河北农业大学;2004年
7 林移刚;中国崇狮习俗初探[D];湘潭大学;2004年
8 王小辉;论唐诗英译中语用预设的传递[D];陕西师范大学;2005年
9 常淑惠;基于写作风格的中文邮件作者身份识别技术研究[D];河北农业大学;2005年
10 刘怀泉;自动指纹识别系统研究[D];山东大学;2005年
【二级参考文献】
中国期刊全文数据库 前10条
1 方立;;“无规则”语法与“有规则”语法——当前美国理论语言学中的重大争论[J];当代语言学;1992年03期
2 李良炎,何中市,易勇;基于词联接的语义表示方法和知识库建设[J];重庆大学学报(自然科学版);2004年04期
3 鲁川,缑瑞隆,刘钦荣;交易类四价动词及汉语谓词配价的分类系统[J];汉语学习;2000年06期
4 朱凤石;基于人工神经网络的汉语兼类处理方法的研究[J];计算机研究与发展;1998年04期
5 王素格,张永奎;汉语词性标注排歧方法探讨[J];计算机工程与应用;2001年07期
6 欧智坚,王作英;连续语音识别中利用帧间相关性的研究[J];计算机工程与应用;2001年15期
7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
8 冯志伟;中文科技术语的结构描述及潜在歧义[J];中文信息学报;1989年02期
9 俞士汶;自然语言的歧义与机器翻译的对策[J];中文信息学报;1989年02期
10 刘刚,张洪刚,郭军;基于变帧率训练的HMM汉语人名识别[J];中文信息学报;2001年01期
【相似文献】
中国期刊全文数据库 前10条
1 詹卫东;;自然语言的自动分析与生成简介[J];术语标准化与信息技术;2010年04期
2 闫琪,张志伟,宁洪;用户搜索请求中限定成分的识别及提取[J];计算机工程与科学;2000年03期
3 左远清,周洞汝,王波;自然语言处理在搜索引擎信息检索中的应用[J];现代计算机;2002年07期
4 刘亚军,徐易,高莉莎;提高IQAS查询速度的一种方法[J];计算机工程与应用;2004年11期
5 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
6 傅立云;刘新;;基于词典的汉语自动分词算法的改进[J];情报杂志;2006年01期
7 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
8 贾君枝;邰杨芳;;FrameNet的语义类型研究[J];情报理论与实践;2007年05期
9 张莉;刘雅举;李东明;侯晨伟;;中文问句分类系统的分析[J];科技情报开发与经济;2007年25期
10 程彩虹;王惠临;解国栋;;基于潜在语义分析的自动词法学习技术[J];情报理论与实践;2008年05期
中国重要会议论文全文数据库 前10条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
2 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
3 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
4 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
5 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
6 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
7 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
8 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
9 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
10 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年
中国硕士学位论文全文数据库 前10条
1 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
2 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
3 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
4 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
5 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
6 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
7 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
8 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
9 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
10 巩晓婷;基于文本的信息隐藏技术研究[D];福州大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026