收藏本站
《重庆大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于词联接的自然语言处理技术及其应用研究

李良炎  
【摘要】:随着人类社会信息化程度和计算机软硬件水平的提高,自然语言处理(Natural Language Processing,简称NLP)技术逐渐成为计算机应用和人工智能研究的热点,其基本技术目标是让计算机具有类似人的语言智能,例如能够象人一样听、说、读、写。围绕NLP技术逐渐形成了一个专门的学科——计算语言学。该学科属于交叉学科,涉及到语言学、心理学、心理语言学、脑科学、计算机科学、哲学、逻辑学、人工智能、数学、信息论、文学、美学等诸多学科或领域。从上个世纪中叶以来,虽然不同学科和领域的无数研究者投入了大量的研究资源,探索出了一些有效的技术,取得了一定的成果,但离实现基本技术目标还显得非常遥远。值此世纪之初,有必要从更高、更深的层面重新审视NLP技术的研究背景、目标和途径,在继承现有技术的基础上大胆创新,探索出切实可行、面向未来的新技术。本文在这个方向上作出了努力,以抛砖引玉,促进NLP技术的发展。 在国家自然科学基金项目“计算机辅助文学艺术创作研究——诗词曲联”(60173060,2002~2004)的支持下,在深入分析NLP技术背景的基础上,本文提出并初步构建了基于词联接的NLP技术(Term Connection Technique for NLP,简称TCT),并应用到诗词语言处理系统(Poetry Processing System,简称PPS)中。理论研究和应用研究的结果表明,TCT是一种继承并发展已有技术、高度综合与包容、操作性强、有效的NLP技术。本文的主要内容包括: 第1章介绍了TCT的技术背景,包括NLP的根本难点、现阶段NLP的根本目标、NLP技术的发展阶段和趋势,提出了一系列较为独特的观点。NLP的根本难点在于自然语言具有认识性和不确定性,现阶段目标应是受限语言智能仿知技术。这一目标是在分析了NLP根本难点、现阶段的计算机技术、已有人工智能和NLP研究成果的基础上提出来的,因此是切实可行的。NLP技术分为技术探索、规则技术兴起、统计技术兴起三个阶段,主要发展趋势是实例技术可能成为主流技术,规则技术和统计技术可能成为辅助技术。 第2章介绍了TCT的基本原理、技术结构、哲学基础、理论基础、方法基础,从宏观上初步构建了TCT。TCT的基本原理是基于受限自然语言环境建立动态语料库,基于动态语料库建立词联接实例知识库和高级知识库,基于知识库进行受限自然语言处理。TCT具有完整、简明、合理的技术结构,包括:TCT知识表示技术(TCTR)、TCT知识获取技术(TCTO)、TCT语言分析技术(TCTA)、TCT语言评价技术(TCTE)、TCT语言生成技术(TCTC)、TCT语言修改技术(TCTM)、TCT语言输入输出技术(TCTIO)。TCT的哲学基础是易学,这是本学位论文最具 重庆大学博士学位论文 特色的地方。易学是中国古代哲学的精华,具有朴素的唯物辩证思想和系统观, 对于认识和认识建模都具有很强的指导作用。TCT的理论基础是神经认知语言学, 该理论强调语言理论不悖于大脑神经事实,综合了联接主义和符号主义等理论的 长处,是一种面向NLP的语言学理论。TCT的方法基础是基于实例的知识加工, 以实例为基础,可以更好地综合各种知识加工技术。 第3、4、5、6章分别介绍了TCT技术结构中的TCTR、 TCTO、TCTA、TCTE, 从微观上初步构建了TCT。由于研究资源有限,本文在斟酌各个技术模块关系的 前提下,着重研究这四大模块。在每个技术模块的研究中都注意继承与创新相结 合,注意各个技术模块在功能上的独立性与系统性。与传统的NLP技术相比较, 各个技术模块都具有各自的特色和创新点:在TCTR中提出了自然语言知识结构 和要素、抽象概念树(Abstract concePt Tree,简称AcT)、体验语义和价值语义等; 在TCTO中提出了语言知识设计、语料标注规范、语言知识获取与管理等;在TCTA 中提出了词联接最大语义符合度计算和最优句树搜索的初级语言分析算法;在 TCTM中提出了豪放与婉约语言风格的计算模型。 第7章介绍了基于TCT的PPS开发和测试。由于构建TCT之初就认识到了 自然语言认识性中的体验性这一难点,而体验性是自然语言尤其是文学语言的重 要特征,因此TCT应当能够比传统的NLP技术更好地处理文学语言。诗词语言是 一种典型的文学语言,开发PPS对传统的NLP技术和TCT都是一种挑战。本文 基于当前水平的TCT开发了PPS,完成了语言知识类设计、语言知识库设计、模 块设计、界面设计,并在大量数据准备工作的基础上进行了诗词语料标注测试、 诗词语言初级分析测试、诗词语言豪放与婉约风格的评价测试。测试结果表明, PPS取得了成功,验证了TCT的有效性。 在论文的最后总结了研究成果,并指出了今后的主要研究方向。 关键词:自然语言处理,实例技术,词联接技术,诗词语言,语言风格评价
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 李翠霞;;现代计算机智能识别技术处理自然语言研究的应用与进展[J];科学技术与工程;2012年36期
中国博士学位论文全文数据库 前2条
1 朱晓丽;川南宋墓石刻图式分析及数字拓片研究[D];重庆大学;2010年
2 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前4条
1 曹卫华;基于进化策略的仿唐诗自动生成系统[D];广东工业大学;2011年
2 杨丹;基于语料库的诗歌翻译标准研究[D];哈尔滨工业大学;2010年
3 游维;基于遗传算法的宋词自动生成研究[D];厦门大学;2007年
4 苏劲松;全宋词语料库建设及其风格与情感分析的计算方法研究[D];厦门大学;2007年
【参考文献】
中国期刊全文数据库 前10条
1 申斌;《周易》与现代数学、物理学中的“三论”[J];安阳大学学报;2002年03期
2 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
3 郑万耕;易学中的物极则反说[J];北京师范大学学报(人文社会科学版);2001年02期
4 张怠杰 ,张跃,姚天顺;面向数据的英汉机译系统中关于组合基于实例的技术[J];东北大学学报;1999年03期
5 金振邦;论体裁的形态学分类[J];东北师大学报;1995年05期
6 Sydney M.Lamb,程琪龙;语言的神经认知─《大脑路径》述评[J];当代语言学;2000年02期
7 黄昌宁;大规模真实文本处理的理论与方法——记第五届国际极大规模语料库研讨会(WVLC-5)[J];当代语言学;1998年01期
8 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
9 庄穆;体验的认识功能初探[J];福建学刊;1994年06期
10 沈军;一个面向受限领域的汉语人机接口系统[J];东南大学学报;1996年05期
【共引文献】
中国期刊全文数据库 前10条
1 张成武,唐瑛;简析肯定自我与否定自我及其应用[J];阿坝师范高等专科学校学报;2003年03期
2 杜黎;音乐教学中歌唱心理因素分析[J];阿坝师范高等专科学校学报;2003年03期
3 张国华;;徐杰《生成语法的“语类”与传统语法的“词类”比较研究》述评[J];阿坝师范高等专科学校学报;2009年02期
4 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
5 刘镇清;从语言的当代性看翻译的文体选择[J];安徽大学学报;2001年06期
6 彭家法;形式语义学的历史渊源和理论框架[J];安徽大学学报;2004年04期
7 彭家法;;照应的一般模式及其语用解释[J];安徽大学学报;2006年02期
8 李书琴;钱宏;;试论全球化语境下文化典籍翻译策略之选择[J];安徽大学学报(哲学社会科学版);2008年03期
9 司罗红;;疑问特征及一般疑问句的生成机制[J];安徽大学学报(哲学社会科学版);2012年01期
10 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 谭天晓;李红霞;;液体推进剂贮运可靠性评估及预测的模糊故障树方法研究[A];全国危险物质与安全应急技术研讨会论文集(下)[C];2011年
3 郑连递;;关于中学生心理健康问题分析及对策[A];创新沈阳文集(B)[C];2009年
4 韩统;董彦非;魏贤智;;多目标攻击中目标威胁评估的模糊综合评判[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
5 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
6 刘善涛;李敏;;基于信息库的新词词汇共性分析与教学策略研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 李艳娇;杨尔弘;;树库中的歧义组合考察[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 徐超;毕玉德;;面向自然语言处理的韩国语隐喻知识库构建研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 孙守迁;王鑫;刘涛;汤永川;;音乐情感的语言值计算模型研究[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
10 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 胡文辉;语言评价理论的价值哲学研究[D];上海外国语大学;2010年
3 原雪;二语/外语语境下的批判性阅读理论构建研究[D];上海外国语大学;2010年
4 冯军;论外宣翻译中语义与风格的趋同及筛选机制[D];上海外国语大学;2010年
5 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
6 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
7 乔晖;语文教科书中学习活动的设计[D];华东师范大学;2010年
8 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
9 王立国;东北滑雪产业发展问题研究[D];东北师范大学;2010年
10 卢玉卿;文学作品中言外之意的翻译研究[D];南开大学;2010年
中国硕士学位论文全文数据库 前10条
1 曹二玲;图画故事书翻译研究[D];河北大学;2009年
2 胡志明;信息化时代大学生思想政治教育接受研究[D];河南理工大学;2010年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
5 刘李明;论英语习语中的语言世界图景[D];长春理工大学;2010年
6 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
7 刘琪;正态云模型模糊推理系统及其应用研究[D];郑州大学;2010年
8 单雅娇;《京华烟云》的文化回译研究[D];上海外国语大学;2010年
9 刘阳;基于框架语义学的语篇连贯研究[D];哈尔滨工程大学;2010年
10 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 胡俊峰,俞士汶;唐宋诗之计算机辅助深层研究[J];北京大学学报(自然科学版);2001年05期
2 刘光裕;印刷术以前的复制技术(二)──搨书与拓石的产生、发展[J];出版发行研究;2000年09期
3 刘光裕;印刷术以前的复制技术(三 )——搨书与拓石的产生、发展[J];出版发行研究;2000年10期
4 陈廷槐;文学艺术与科学技术应当相互结合[J];重庆大学学报(社会科学版);2000年04期
5 晏小花;中国英语与跨文化翻译[J];长沙铁道学院学报(社会科学版);2002年01期
6 周淑萍;古典文献专书辞典的词性标注问题[J];辞书研究;1999年01期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 William G·Bowen,樊锦诗;中美合作研制敦煌数字图像档案[J];敦煌研究;2002年04期
9 刘刚,鲁东明;敦煌壁画的数字化[J];敦煌研究;2003年04期
10 樊锦诗;为了敦煌的久远长存——敦煌石窟保护的探索历程[J];敦煌研究;2004年03期
中国重要会议论文全文数据库 前3条
1 刘秉权;张凯;王晓龙;;语音识别中基于规则的语言模型的研究[A];第五届全国人机语音通讯学术会议论文集[C];1998年
2 徐蔚然;张洪刚;郭军;;基于语法、语义信息的银行票据二值化算法的构造[A];2001年中国智能自动化会议论文集(下册)[C];2001年
3 索宏彬;李明;吕萍;颜永红;;一种基于带语言模型并行音节解码器的语种识别系统[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
中国重要报纸全文数据库 前1条
1 张宝红;[N];中国文物报;2004年
中国博士学位论文全文数据库 前10条
1 罗二虎;西南汉代画像与画像墓研究[D];四川大学;2002年
2 祁志祥;中国古代美学精神[D];复旦大学;2003年
3 马玉兰;宋代法帖研究[D];首都师范大学;2003年
4 李占喜;翻译过程的关联—顺应研究—文化意象处理举隅[D];广东外语外贸大学;2005年
5 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
6 石跃祥;计算机视觉图像语义模型的描述方法研究[D];中南大学;2005年
7 冯民生;中西传统绘画空间表现比较研究[D];南京艺术学院;2006年
8 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
9 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
10 李红梅;智能元搜索引擎关键技术研究[D];西安电子科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 陆遥;语音识别剪枝算法研究[D];北京邮电大学;2012年
2 柳浩;基于NPR技术的建筑CAD系统[D];浙江大学;2003年
3 孙宗保;基于计算机视觉的粒度检测应用研究[D];江苏大学;2003年
4 彭涛;基于统计的汉字识别后处理研究[D];河北大学;2003年
5 冯立波;从文本层次理论看汉诗英译文本的翻译批评问题[D];广东外语外贸大学;2004年
6 张海江;中国水墨画仿真中几个关键问题的研究[D];天津大学;2004年
7 马建斌;基于SVM的中文电子邮件作者身份挖掘技术研究[D];河北农业大学;2004年
8 林移刚;中国崇狮习俗初探[D];湘潭大学;2004年
9 王小辉;论唐诗英译中语用预设的传递[D];陕西师范大学;2005年
10 常淑惠;基于写作风格的中文邮件作者身份识别技术研究[D];河北农业大学;2005年
【二级引证文献】
中国期刊全文数据库 前4条
1 余少勇;;对联自动应答系统的设计与实现[J];厦门理工学院学报;2011年01期
2 郭金龙;许鑫;陆宇杰;;人文社会科学研究中文本挖掘技术应用进展[J];图书情报工作;2012年08期
3 周昌乐;郑旭玲;何中市;李良炎;;中国古典诗词楹联的计算化研究[J];心智与计算;2012年02期
4 霍跃红;刘丽萍;;基于简化和显化特征的伪译本辨伪研究——以伪译本《奥特朗托城堡》为例[J];语言教育;2013年01期
中国博士学位论文全文数据库 前1条
1 宋娟;宋代笔记在《全宋词》编纂中的史料价值[D];吉林大学;2012年
中国硕士学位论文全文数据库 前2条
1 赖兴邦;宋词格律分析的计算方法及其应用研究[D];厦门大学;2008年
2 李敏;基于规则和SVM的教育资源分类技术研究[D];新疆大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 冯志伟;;特思尼耶尔的从属关系语法[J];国外语言学;1983年01期
2 方立;;“无规则”语法与“有规则”语法——当前美国理论语言学中的重大争论[J];国外语言学;1992年03期
3 胡化凯;五行配伍理论的科学价值初探[J];大自然探索;1994年02期
4 李良炎,何中市,易勇;基于词联接的语义表示方法和知识库建设[J];重庆大学学报(自然科学版);2004年04期
5 陈卫星;西方当代传播学学术思想的回顾和展望(上)[J];国外社会科学;1998年01期
6 丁金国;关于语言风格学的几个问题[J];河北大学学报(哲学社会科学版);1984年03期
7 鲁川,缑瑞隆,刘钦荣;交易类四价动词及汉语谓词配价的分类系统[J];汉语学习;2000年06期
8 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
9 朱凤石;基于人工神经网络的汉语兼类处理方法的研究[J];计算机研究与发展;1998年04期
10 王素格,张永奎;汉语词性标注排歧方法探讨[J];计算机工程与应用;2001年07期
【相似文献】
中国期刊全文数据库 前10条
1 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
2 詹卫东;;自然语言的自动分析与生成简介[J];术语标准化与信息技术;2010年04期
3 闫琪,张志伟,宁洪;用户搜索请求中限定成分的识别及提取[J];计算机工程与科学;2000年03期
4 左远清,周洞汝,王波;自然语言处理在搜索引擎信息检索中的应用[J];现代计算机;2002年07期
5 刘亚军,徐易,高莉莎;提高IQAS查询速度的一种方法[J];计算机工程与应用;2004年11期
6 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
7 傅立云;刘新;;基于词典的汉语自动分词算法的改进[J];情报杂志;2006年01期
8 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
9 贾君枝;邰杨芳;;FrameNet的语义类型研究[J];情报理论与实践;2007年05期
10 张莉;刘雅举;李东明;侯晨伟;;中文问句分类系统的分析[J];科技情报开发与经济;2007年25期
中国重要会议论文全文数据库 前10条
1 闫英杰;林鸿飞;杨志豪;;关键词密度分布法在偏重摘要中的应用研究[A];第三届学生计算语言学研讨会论文集[C];2006年
2 刘耀;穗志方;胡永伟;冀铁亮;;领域Ontology自动构建研究[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
3 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
6 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
10 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 王俊;“统计在法律中的应用研究”研讨会召开[N];中华新闻报;2009年
7 白冰;粤港成立科技合作资助计划支援应用研究项目[N];大众科技报;2004年
8 ;碳纤维复合材料应用研究获新突破[N];中国高新技术产业导报;2005年
9 熙隆;一批成熟的纳米包装项目已得到应用[N];中国包装报;2006年
10 四平市铁东区教师进修学校 李艳;WiKi可应用于教学[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
2 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
3 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
4 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
5 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
6 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
7 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
8 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
9 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
10 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年
中国硕士学位论文全文数据库 前10条
1 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
2 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
3 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
4 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
5 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
6 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
7 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
8 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
9 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
10 巩晓婷;基于文本的信息隐藏技术研究[D];福州大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026