收藏本站
《华南理工大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

中文词汇知识获取算法和语义计算研究及应用

刘兴林  
【摘要】:互联网的飞速发展使其成为全球信息传播和共享的最重要资源,其数据成几何级数增长,然而要从互联网上获取有用的知识却非常困难,“数据爆炸,知识贫乏”已成为当前诸多专家学者需要迫切解决的问题。 目前知识获取的大多数研究都是从单纯的计算机技术角度出发,采取诸如规则、句式等从语法逻辑结构层面来挖掘、提取知识,然而新概念的不断涌现,导致许多新词汇被创造出来。这些新词汇由多个语素或多个词组成,当前的分词系统,在收录这些词之前,会将它们切分成多个语素或词,而导致当前已有的知识获取方法无法正确识别,更难于在语义层面上进行比较。这将给知识获取带来新的难题,也使得当前以信息检索为主要技术的搜索引擎在处理网页时采取了“非语义”的关键词匹配的方式,以致于内容查找准确率低,语义计算的引入将有望改善这种状况。 本文的主要研究工作有两部分:中文词汇知识获取算法和中文词汇语义计算方法。本文基于分词系统之上,进行合成词的识别,解决未登录词无法正确识别的问题;为合成词建立词性标注模型,对合成词进行词性标注,消除词性歧义,解决当前词性标注模型无法直接应用于合成词的词性标注的问题,同时修正分词结果。在实现合成词识别的基础上进行文本主题词的提取,建立词汇语义计算模型,使词与词之间可比较,用语义计算代替传统的关键词匹配,是实现智能信息检索的一个根本途径;同时也是构建词汇语义知识库、实现知识推理的一个关键基础性研究工作,具有重要的研究意义。 本文最后实现了一个中文词汇知识获取和语义计算平台,通过应用上述算法,建立了一个包含中文词汇知识获取以及中文词汇语义计算的综合系统,验证了本文各项研究工作的意义和算法的有效性。 本文的创新性工作主要有以下几点: 1、针对当前未登录词识别的难点问题,提出了基于词性探测和词共现有向图的合成词识别算法CWRWCDG,该算法先采用词性探测从文本中获取词串,进而由获取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,从词共现有向图中搜索多源点长度最长且权重值满足给定条件的路径,则该路径所对应的词串为合成词。实验结果表明该算法要优于同类算法。 2、中文合成词标注的难点在于词性的确定,针对该问题,提出了基于核心属性渗透理论的中文合成词词性标注算法,核心属性渗透理论最早由Lieber于1980年提出,他认为在英语中合成词的词性由合成词的核心成分决定,本文将该理论应用于中文合成词词性的标注,并根据实际情况需要提供显式标注和隐式标注两种方式。 3、当前文本主题词提取算法主要从词频角度出发,基于TF/IDF值,然而对于词语分布较均衡的文本效果不理想,针对这种情况,提出了基于词位置权重和增量词集频率的主题词提取算法TTEITS。该算法认为同一个词在文本的不同位置出现,对该词是否成为主题词的影响是不一样的,同时,在确定一个候选主题词是否真正成为主题词时,不但计算该单个词的权重(频率),而且计算它对整个主题词集的增量权重(频率),若该增量大于某个给定的阈值,则判定该词为主题词,否则算法结束。该算法的优点在于当各候选主题词出现次数都比较低、较平均时,仍然能够提取出最合适的主题词。 4、研究主题词集在自动文摘上的应用,提出了基于主题词集的中文自动文摘算法CASTTS。该算法先通过TTEITS算法提取文本主题词,再由主题词权重进行加权计算各主题词所在的句子权重,从而得出主题词集对应的每个句子的总权重,最后根据自动文摘比例选取句子权重较大的几个句子并按原文顺序输出文摘。实验结果表明,该方法所获得的文摘质量高,较接近于参考文摘,取得了良好的效果。 5、针对现有词汇语义计算及文本相似度计算中存在的一些不足,基于知网,巧妙的将文本相似度计算转换为计算文本主题词集相似度,提出了基于主题词集的文本相似度计算方法TSCTTS。该方法先通过TTEITS算法提取文本主题词,然后在知网义原层次体系结中构获取两个词语的语义距离,经转换公式得到两个词语的语义相似度,最后由主题词集的语义相似度得到文本相似度。该算法应用于文本分类实验,结果表明该算法有较好的分类性能。
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
4 胡舜耕,刘晓宇,钟义信;基于多Agent技术的自动文摘系统的研究和设计[J];电子学报;2001年02期
5 刘远超;王晓龙;徐志明;刘秉权;;基于粗集理论的中文关键词短语构成规则挖掘[J];电子学报;2007年02期
6 朱聪慧;赵铁军;郑德权;;基于无向图序列标注模型的中文分词词性标注一体化系统[J];电子与信息学报;2010年03期
7 刘挺,吴岩,王开铸;中文自动文摘系统CAAS的研究与实现[J];哈尔滨工业大学学报;1999年06期
8 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
9 赵岩;王晓龙;刘秉权;关毅;;融合聚类触发对特征的最大熵词性标注模型[J];计算机研究与发展;2006年02期
10 杜伟夫;谭松波;云晓春;程学旗;;一种新的情感词汇语义倾向计算方法[J];计算机研究与发展;2009年10期
中国博士学位论文全文数据库 前1条
1 杨梅;现代汉语合成词构词研究[D];南京师范大学;2006年
中国硕士学位论文全文数据库 前1条
1 孙静;基于平行语料库的无监督中文词性标注研究[D];苏州大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期
2 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
3 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
4 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期
5 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
6 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
7 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
8 都云程;周伟;韩艳铧;吕学强;;基于字同现频率的关键词自动抽取[J];北京信息科技大学学报(自然科学版);2011年06期
9 卫萌菡;徐开俊;;知识网格中的格理论[J];毕节学院学报;2011年04期
10 李荣军;王小捷;周延泉;;PageRank模型在中文情感词极性判别中的应用[J];北京邮电大学学报;2010年05期
中国重要会议论文全文数据库 前10条
1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 刘善涛;李敏;;基于信息库的新词词汇共性分析与教学策略研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 李卫;王枞;李蕾;郭燕慧;钟义信;;全信息知识制导的科技期刊初审辅助系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
9 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
10 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
3 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
4 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
5 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
6 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
7 黄永忠;移动代理计算模型及其在分布并行计算中的应用研究[D];解放军信息工程大学;2007年
8 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
9 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
10 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
3 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
4 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
5 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
6 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
7 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
8 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
9 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
10 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李颖新,刘全金,阮晓钢;多发性骨髓瘤基因表达谱分析[J];北京工业大学学报;2004年03期
2 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
3 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
4 黎锦熙;汉语构词法和词表研究(上)[J];北京师范大学学报(社会科学);1959年05期
5 丁春;关键词标引的若干问题探讨[J];编辑学报;2004年02期
6 段云峰,宋俊德,李剑威,舒华英;基于数量的关联规则挖掘[J];北京邮电大学学报;2002年04期
7 顾阳;论元结构理论介绍[J];国外语言学;1994年01期
8 黄月圆;复合词研究[J];国外语言学;1995年02期
9 顾阳;生成语法及词库中动词的一些特性[J];国外语言学;1996年03期
10 J.L.Packard,左岩;《汉语构词的新研究:现代和古代汉语的词法、音系和词汇》评介[J];当代语言学;2000年04期
中国重要会议论文全文数据库 前7条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 郑家恒;杜永萍;宋礼鹏;;农业病虫害词汇获取方法初探[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 金千里;赵军;徐波;;弱指导的统计隐含语义分析及其在跨语言信息检索中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前4条
1 张蕾;概念结构及其应用[D];西北工业大学;2001年
2 杨梅;现代汉语合成词构词研究[D];南京师范大学;2006年
3 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
4 朱海平;基于概念图匹配的语义搜索[D];上海交通大学;2006年
中国硕士学位论文全文数据库 前7条
1 梁以敏;基于统计的汉语词性标注方法的研究[D];大连理工大学;2004年
2 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
3 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
4 罗慧慧;基于语义神经网络的深层语义的计算[D];湘潭大学;2005年
5 张瑞霞;基于语义的汉语句法分析系统的研究与实现[D];西北大学;2005年
6 殷亚玲;基于概念图的相关反馈系统的研究与实现[D];西北大学;2006年
7 邱莎;基于统计的生物命名实体识别研究[D];四川大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 曹来发;;中文电脑交流会、中文信息全国学术交流会在蓉召开[J];水利电力机械;1991年05期
2 ;在《中文信息》创刊十周年庆祝会上 四川联合大学龙伟副校长致开幕词[J];中文信息;1994年06期
3 ;推动中文信息现代化工程是炎黄子孙义不容辞的职责——基金会积极筹建 热心人士陆续捐赠[J];中文信息;1995年01期
4 孙宝传;中文信息处理技术如何再创辉煌[J];中国传媒科技;2001年10期
5 ;书讯[J];中文信息学报;2010年02期
6 ;读者天地[J];中文信息;1994年01期
7 廖坦,张平;信息港与中文信息环境[J];中文信息;1996年05期
8 许嘉璐;语言学研究与中文信息处理[J];中文信息;1997年03期
9 曲大成;周立峰;;怎样阅读Internet网上的中文信息[J];办公自动化;1997年01期
10 姚进;首都在线——全新本地中文信息网[J];网上出版;1998年02期
中国重要会议论文全文数据库 前10条
1 白宇;蔡东风;赵环宇;季铎;;基于语义计算的中文相似问句抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 丁德鑫;曲维光;于丽丽;陈小荷;李惠;;基于词频和语义信息的组合型歧义消解[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 赵大明;;关于《现代汉语规范字典》的词性标注[A];中国辞书论集1999[C];1999年
4 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
9 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
10 ;前言[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 吴玉征;语义计算:读懂信息之间的关系[N];计算机世界;2010年
2 李力;广东云安建国内首个中文信息化城镇[N];经济日报;2004年
3 ;中文信息应用网络应运而生[N];网络世界;2001年
4 詹克山;清除IE地址栏中的中文信息[N];中国计算机报;2002年
5 记者 王兵;中国C网构建中文信息应用系统[N];人民邮电;2001年
6 记者 李琳;中国C网:誓做自主全中文信息网[N];厂长经理日报;2000年
7 罗敏;《中国C网中文信息应用网络系统》近日通过技术成果鉴定[N];中国高新技术产业导报;2001年
8 教育部语信司;第十一届全国民族语言文字信息学术研讨会召开[N];语言文字周报;2007年
9 本报记者  管宏业;新标致307:外观小改 品质大增[N];中国商报;2006年
10 阿祥;没有文化 网站将会怎样?[N];中国信息报;2001年
中国博士学位论文全文数据库 前10条
1 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
2 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
3 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
4 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
5 方流;描述逻辑推理优化技术研究[D];浙江大学;2008年
6 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
7 张明生;柔性访问控制研究[D];贵州大学;2008年
8 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
9 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
10 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
中国硕士学位论文全文数据库 前10条
1 李庆阳;基于本体的网页语义计算方法研究与实现[D];华南理工大学;2010年
2 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
3 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
4 陈小宾;领域本体及其在移动问答中的应用研究[D];大连理工大学;2009年
5 张磊;基于知网的汉语隐喻自动处理[D];兰州大学;2007年
6 孙静;基于平行语料库的无监督中文词性标注研究[D];苏州大学;2010年
7 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
8 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
9 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
10 李泽中;最大熵结合词语聚类的中文词性标注研究[D];大连理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026