收藏本站
《哈尔滨工业大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于粗集的汉语建模及其应用研究

陈清才  
【摘要】:自然语言建模是保证计算机能够以可计算的方式对各种语言信息进行有效的处理与应用的基础,尽管基于统计的自然语言模型已经获得了成功应用,当前人们仍然面临如何更加高效、准确地获取语言学知识,同时对各种冗余信息进行有效剪切的问题。 为了解决上述问题,同时考虑到粗集技术能够有效地解决信息冗余、冲突、模糊等问题,本文通过引入粗集技术,探索从大规模非结构化的自然语言文本中自动获取语言学规则的方法与模型,研究借助粗集技术来考察自然语言建模的特点以及建模过程中所面临的主要问题、相应的解决方法,在此基础上,进一步研究所建立的语言模型在自然语言处理中的应用。本文研究的主要内容包括以下四部分: 第一,本文以汉语音字转换任务所面临的问题为起点,研究文本信息的结构化方法,并在此基础上建立了一个基于粗集的从大规模文本语料库中获取汉语音字转换规则的语言学知识发现模型,研究了模型的实现方法,并通过实验评测了模型的性能。模型的主要优点在于能够针对不同应用所提供的特征来完成对规则库的约简,降低信息冗余,尽管模型所挖掘的规则是应用相关的,但由于所有规则是自动获取的,所以模型本身仍然具有很好的移植性。 第二,由于传统的统计语言模型不能有效解决远距离约束问题,为解决这一问题,我们研究了将粗规则集与统计语言模型进行融合的方法。首先针对存储空间受限的应用领域,研究了基于候选剪切及基于线性插值的方法来融合粗规则集以及字tri-gram模型时的模型性能及特点,然后针对通用领域,研究了在最大熵框架下将粗规则集与基于词的tri-gram模型进行融合的方法,并在此基础上建立了一个基于最大熵和粗规则集的统计语言模型。实验结果表明,将粗规则集与统计语言模型进行融合能够有效的改进传统统计语言的性能。 第三,汉语语义的量化建模是进行语义辨识以及语义相似度计算的基础,本文通过采用统计的方法来建立词空间,并将一个词语的上下文映射到该词空间来进行词语的语义量化并建立了相应的量化模型。为了减少计算语义相似度的时间复杂度,我们引入了粗集技术中的属性约简算法来进行词矢量空间的属性约简及坐标词选择,研究了对连续的属性值的离散化处理问题。通过采用伪词的方法对语义量化模型的评测结果显示模型具有较强的语义量化能力及实际
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2003
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 钟彬彬,刘远超,徐志明;基于GA的文本子主题切分中的参数优化研究[J];计算机工程与应用;2005年21期
2 徐永东;徐志明;王晓龙;;基于信息融合的多文档自动文摘技术[J];计算机学报;2007年11期
中国博士学位论文全文数据库 前3条
1 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
2 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
3 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前2条
1 杨小洪;基于自组织映射的自动文摘方法研究[D];哈尔滨工业大学;2006年
2 郝志新;基于改进的模糊C均值聚类算法的多文档自动文摘[D];哈尔滨工业大学;2009年
【参考文献】
中国期刊全文数据库 前10条
1 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
2 李蕾,钟义信;自动文摘系统中基于全信息词典的复杂语句分析方法及其实现[J];电子学报;2000年08期
3 王永成,许慧敏;OA-1.4 版中文自动摘要系统[J];高技术通讯;1998年01期
4 荀恩东,李生,赵铁军;基于汉语二元同现的统计词义消歧方法研究[J];高技术通讯;1998年10期
5 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
6 于剑,程乾生;粗集与不可测集[J];科学通报;2000年07期
7 李涓子,黄昌宁,杨尔弘;一种自组织的汉语词义排歧方法[J];中文信息学报;1999年03期
8 郭玉箐,万敏,罗振声;面向非受限领域的综合式自动中文文摘方法[J];清华大学学报(自然科学版);2002年01期
9 李明;从字频统计出发的中文文摘自动编写[J];现代图书情报技术;1996年03期
10 高升,徐波,黄泰翼;基于决策树的汉语三音子模型[J];声学学报;2000年06期
【共引文献】
中国期刊全文数据库 前10条
1 徐文婷;李承鹏;;基于自适应遗传算法的离散化方法[J];合肥师范学院学报;2011年03期
2 蔡莉;胡学钢;;一种基于粗集的决策表求核算法[J];安徽大学学报(自然科学版);2007年06期
3 周玉华;李景杰;;不完备决策表的一种属性约简方法[J];安徽大学学报(自然科学版);2009年04期
4 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
5 杨萍,万上海,陈耿;一种基于可变支持度的缺省规则挖掘算法[J];安徽工程科技学院学报(自然科学版);2004年02期
6 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
7 孙全玲;基于粗集和神经网络的建模方法研究[J];安徽建筑工业学院学报(自然科学版);2005年02期
8 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
9 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
10 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
3 ;Fuzziness in Covering Generalized Rough Sets[A];第二十六届中国控制会议论文集[C];2007年
4 李雄;党生;;基于Rough集理论的战场侦察情报处理[A];第二十六届中国控制会议论文集[C];2007年
5 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
6 龚锦红;杨辉;衷路生;;稀土萃取分离过程的Rough集案例推理方法[A];第二十九届中国控制会议论文集[C];2010年
7 ;Influence Diagram Based on Rough Set Theory[A];第二十九届中国控制会议论文集[C];2010年
8 ;The Prediction of Soil Moisture Based on Rough Set-Neural Network Model[A];第二十九届中国控制会议论文集[C];2010年
9 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
10 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论和Apriori算法建立中医症候诊断标准[A];中国自动化学会控制理论专业委员会D卷[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
3 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
4 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年
5 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
6 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
7 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
8 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
9 郭戈;数字视频语义信息提取与分析[D];解放军信息工程大学;2010年
10 温世亿;膨胀土渠坡若干关键技术问题研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 马国祥;上海市退役运动员就业安置现状调查研究[D];上海体育学院;2010年
4 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
5 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
6 李昕哲;关系邻域系统的属性约简[D];郑州大学;2010年
7 刘琪;正态云模型模糊推理系统及其应用研究[D];郑州大学;2010年
8 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
9 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
10 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 刘来旸,瞿有利,樊孝忠;汉语智能输入系统的设计[J];北京理工大学学报;2001年03期
2 黄希琛;王锡龙;;科光智能汉字输入系统软件实现技术[J];长春光学精密机械学院学报;1988年04期
3 吕继兴,蒋文科,臧悦利,屈滨;基于Windows IME汉字输入法的实现[J];河北农业大学学报;2003年S1期
4 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
5 王安志;李明东;李超;;各种聚类算法及改进算法的研究[J];电脑知识与技术;2008年25期
6 戴丹;董芳;;水文输入法的设计与实现[J];大众科技;2006年04期
7 梅勇,王群生,徐秉铮;语音识别后处理中的混合统计模型[J];电子技术应用;1998年03期
8 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
9 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
10 张泽明;罗文坚;王煦法;;一种基于人工免疫的多层垃圾邮件过滤算法[J];电子学报;2006年09期
中国博士学位论文全文数据库 前1条
1 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前10条
1 陈波;中文统计自然语言处理隐马模型的研究[D];重庆大学;2003年
2 张浩华;纳西象形文字信息化处理方法及输入平台的设计与实现[D];昆明理工大学;2003年
3 顾平;一种智能型数码输入技术的研究与设计[D];苏州大学;2005年
4 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
5 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
6 邹荣;大词汇量连续语音识别系统中统计语言模型的研究[D];北京邮电大学;2006年
7 刘武;基于统计机器学习算法的汉语分词系统的研究[D];北京邮电大学;2006年
8 祝嘉;基于GMM的连接词语音识别及大词汇表系统的语言建模[D];苏州大学;2006年
9 娜步青;基于统计的蒙汉机器翻译系统[D];内蒙古大学;2006年
10 李俊;统计机器翻译中解码算法的研究[D];哈尔滨工业大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 王萌;李春贵;徐超;何婷婷;;主题与子事件发现的多文档自动文摘[J];计算机工程与应用;2011年18期
2 纪文倩;李舟军;巢文涵;陈小明;;一种基于LexRank算法的改进的自动文摘系统[J];计算机科学;2010年05期
3 王萌;徐超;李春贵;何婷婷;;一种概念同现模型的多文档文摘研究[J];计算机工程与科学;2011年07期
4 许荣华;吴刚;李培峰;朱巧明;;基于指代消解的中文事件融合方法[J];计算机应用;2009年08期
5 刘德喜;吴世汉;万常选;;XML文本自动文摘研究综述[J];计算机应用研究;2009年11期
6 刘茂福;李文捷;姬东鸿;;基于事件项语义图聚类的多文档摘要方法[J];中文信息学报;2010年05期
7 王红玲;周国栋;朱巧明;;面向冗余度控制的中文多文档自动文摘[J];中文信息学报;2012年02期
8 王红玲;张明慧;周国栋;;主题信息的中文多文档自动文摘系统[J];计算机工程与应用;2012年25期
9 岳大鹏;饶岚;王挺;;一种针对新闻话题的多文档文摘技术[J];中文信息学报;2012年06期
10 肖升;何炎祥;;改进的潜在语义分析中文摘录方法[J];计算机应用研究;2012年12期
中国重要会议论文全文数据库 前4条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 朱海军;张桂平;蔡东风;王炜华;;科技论文的标题识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 钟茂生;;文本主题分割技术的研究进展[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前8条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
4 孙广路;基于统计学习的中文组块分析技术研究[D];哈尔滨工业大学;2008年
5 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
6 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
7 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
8 贺瑞芳;时序多文档文摘相关技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
2 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
3 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
4 王询;面向航运领域的文本分类系统[D];大连海事大学;2011年
5 熊颖;中文多文档摘要关键技术研究[D];北京邮电大学;2011年
6 戴依若;基于内容的中文流行病新闻主题分类[D];北京邮电大学;2011年
7 高超;一种基于综合背景概念格的中文自动文摘方法[D];中南大学;2011年
8 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
9 周娇;基于生物记忆原理的信息动态智能更替模型研究[D];西安建筑科技大学;2011年
10 邓光喜;面向主题的Web文档自动文摘生成方法研究[D];苏州大学;2011年
【二级参考文献】
中国期刊全文数据库 前4条
1 钟义信;从“统计”到“理解”,从“传输”到“认知”[J];电子学报;1998年07期
2 杨晓兰,钟义信;基于文本理解的自动文摘系统研究与实现[J];电子学报;1998年07期
3 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
4 王永成,李健;汉语的自动分词[J];上海交通大学学报;1989年02期
【相似文献】
中国期刊全文数据库 前10条
1 安利平,张建勇,仝凌云;专家系统中基于粗集的知识获取、更新与推理[J];计算机工程与设计;2004年01期
2 祝峰,何华灿;粗集的公理化[J];计算机学报;2000年03期
3 孙兴波;基于粗集方法的图像识别系统[J];四川轻化工学院学报;2001年01期
4 许琦,李永生;粗集理论及基于集合论的学习方法[J];盐城工学院学报(自然科学版);2002年01期
5 李钢,张雪婷;基于相似关系粗糙集的分解[J];计算机工程与应用;2004年02期
6 孙惠琴,熊璋;基于粗集和多Agent技术的分布式数据挖掘[J];微电子学与计算机;2005年01期
7 郝秀兰;基于粗集的属性值约简及应用[J];电脑开发与应用;2005年05期
8 夏克文,宋建平,李昌彪;基于粗集和神经网络的石油测井数据挖掘方法[J];信息与控制;2003年04期
9 王洪凯,管延勇,史开泉;粗集间的相似度量及其应用[J];计算机工程与应用;2004年31期
10 郑丽英,王庆荣,刘丽艳;面向属性的粗集数据挖掘方法研究[J];兰州理工大学学报;2005年02期
中国重要会议论文全文数据库 前10条
1 凌方;王建东;;基于可变精度粗集的规则简化方法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 刘保仓;刘若慧;;粗模糊集的嵌入集的性质[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
3 王洪德;马云东;;基于粗集-BP网络的通风系统可靠性预警方法研究[A];中国科协2004年学术年会第16分会场论文集[C];2004年
4 王慧敏;佟金萍;;宏观经济预警新探索:粗集—神经网络预警方法[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
5 许翔;张东波;王耀南;刘子文;;一种新型的基于模糊划分的粗集神经网络[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
6 胡学钢;郭骏;王浩;袁兆山;;基于粗集与基于格结构的知识发现方法比较[A];全国第十四届计算机科学及其在仪器仪表中的应用学术交流会论文集[C];2001年
7 王名扬;于达仁;卫金茂;;变精度粗集模型在电厂故障诊断中的应用[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
8 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
9 程玉胜;张佑生;胡学钢;;一种Gray区域表征的关键条件属性集逆向求解[A];'2006系统仿真技术及其应用学术交流会论文集[C];2006年
10 郭海涛;王连玉;刘颉;梁捷;;基于粗集理论的声呐图像增强[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
2 曹秀英;基于粗集的数据挖掘技术及其应用研究[D];哈尔滨工程大学;2003年
3 胡咏梅;基于粗集的车间动态调度研究[D];山东大学;2005年
4 刘盾;基于粗糙集理论的多属性决策方法[D];西南交通大学;2011年
5 韩斌;基于数据挖掘的信息融合理论和应用[D];浙江大学;2002年
6 李秋丹;数据挖掘相关算法的研究与平台实现[D];大连理工大学;2004年
7 于冬;面向数字城市的复杂性研究[D];天津大学;2004年
8 赵家黎;基于SOV理论的过程质量控制方法研究[D];天津大学;2007年
9 徐德友;粗集信息分析在故障诊断中的应用及自修复飞行控制系统效能评估[D];南京航空航天大学;2002年
10 关洪军;石化行业经营风险控制模型构建与应用研究[D];武汉理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 汤义强;结合粗集的数据分析方法及应用研究[D];安徽大学;2011年
2 李保平;基于S-粗集的系统规律挖掘与非线性系统输出反馈[D];安徽大学;2011年
3 牟宗瀛;粗集选股模型及随机择机模型初探[D];北京工业大学;2001年
4 宋雪飞;基于粗集理论值约简的数据挖掘系统[D];长春理工大学;2002年
5 杜军;基于粗集—神经网络的宏观经济预警研究[D];河海大学;2003年
6 徐昕;基于粗集和神经网络的建模方法及其应用[D];南京工业大学;2003年
7 程玉胜;粗集理论约简及其应用的研究[D];合肥工业大学;2003年
8 刘春亚;基于粗集理论的数据预处理及应用研究[D];重庆大学;2003年
9 尹巧珍;基于粗集理论属性约简的数据挖掘系统[D];长春理工大学;2002年
10 闵小宝;基于证据推理模型的K-NN分类[D];江西师范大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026