收藏本站
《复旦大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

中文信息处理中若干关键技术的研究

王建会  
【摘要】:随着科学技术的高速发展,以及各种资源数量的不断增多,为了提高效率,信息处理已经成为当前最重要的研究内容,其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息结构分析、文本生成以及信息检索等等。其中,属性选择是一项较为重要的基础性研究工作,为其它的研究提供基础和前提。而其它研究工作可以有效地、而且较为准确地抽取出有用信息、挖掘出新的知识,提高获取大量有用信息的效率和速度。 针对当前对信息处理的需求,本文对中文信息处理中的若干关键技术进行了研究。本文的主要研究内容和贡献如下: 1.改进了N-gram切词算法和基于概率统计的属性选择算法。在信息处理研究领域,迄今为止,已提出了多种属性选择算法。由于基于字典的属性选择算法,需要花费大量的时间和精力来建辞典,所以,大多数现有的算法都是基于概率统计的。研究发现,现有算法在以下几个方面尚有待改进:(1)这些算法所依据的评分策略,没有充分地考虑词语在类之间和类内文档间的分布特性,要么只是基于传统的TF/IDF,要么只是基于词语在类间的分布特性;(2)现有的N-gram切词算法的效率有待提高;(3)现有算法在选择属性时,没有考虑相互重叠的词串之间的筛选问题;(4)现有算法没有考虑词语的位置对其重要性的影响。针对这些问题,本文改进了N-gram切词算法,并充分考虑词语的分布特性和位置的重要性,准确地处理叠词,提出了新的基于统计的属性选择算法,扩展和改进了现有算法。实验结果表明,本文提出的算法可以有效地提高属性选择的精度,从而改善信息处理的性能。 2.改进了词语间依存关系的定量识别策略。本文扩展和改进了现有的基于统计的词语间依存关系定量识别算法,力图解决现有算法中存在的有待改进的不足之处,提高识别的准确率,从而提高信息处理和自然语言处理等的时空效率和性能。为此,本文作了以下贡献和创新工作:(1)充分考虑词项的概率分布的影响,不仅能够有效地识别出相邻词项之间的依存关系,还可以识别出不相邻词项之间和潜在的依存关系;(2)明确区分词项之间的搭配关系、并列关系和从属关系,针对它们不同的特点,提出不同的识别算法;(3)提出字串匹配模型,以此识别部分词项之间的从属关系;(4)充分考虑两个词项之间相互位置的离散分布和距离的 摘要 影响、以及它们的概率分布特:性,提出词项间的依存强度模型,并据此 构建词语间依存关系树;(5)提出更新策略,对已经建好的依存关系树 进行裁剪,并从己建好的依存关系树中挖掘出不相邻词项之间的依存关 系和潜在的依存关系。应用实验的结果表明,本文提出的算法可以有效 地识别出词语间的依存关系,从而改善信息处理和自然语言处理等的性 育旨。 提出了一种具有增量学习能力、高效的信息分类算法。在模式识别研究 领域,在己有的分类算法中,大多数都是基于向量空间模型的算法,其 中使用范围最广的是kNN算法;,但是,其中的大多数算法都因为计算复杂 度太高,而不适合于大规模的场合,而且,当训练样本集增大时,都需 要重新生成分类器,可扩展性差。本文提出了互依赖和等效半径的概念, 并将两者相结合,提出新的分类算法—基于互依赖和等效半径、易更 新的分类算法SECTILE,SECT工LE计算复杂度较低,而且扩展性能较好, 适用于大规模场合。将SECTILE算法应用于中文文本分类,并与kNN算法 和类中心向量法进行比较,结果表明,在保证不损失分类精度的前提下, SECTILE可以大大提高分类速度,有利于对大规模信息样本进行实时在线 的自动分类。 提出了一种基于子空间的信J息聚类算法。在信息处理研究领域,现有的 大多数聚类算法都需要人为给出一些参数,而且时空效率也有待于进一 步提高。然而,在没有先验知识的情况下,人为确定这些参数是十分困 难的。为了解决这一难题,本文提出了一种实用而且高效的聚类算法, 力图避免需要人为事先确定的参数,同时提高时空效率和信息处理的性 能。此外,本文还从多个角度分析了该算法的性能,并将该算法应用于 中文文本聚类,结果表明,该算法不需要人为确定参数,同时,还提高 了信息处理的时空效率和性能。 提出基于子空间上子主题聚类的信息摘要算法。自动摘要的算法大致可 分为两大类,一类是基于统计的算法,另一类是基于知识理解的算法。 前者与领域无关,但是精度低;后者准确度高,但是应用范围受到领域 限制。鉴于此,本文提出了一种基于主题聚类的自动摘要算法,采用统 计方法的同时,适当结合知识理解,既摆脱了领域限制,又使摘要的结 果更为准确。此外,本文还提出了一种较为客观的、基于任务的摘要性 能评估算法。 本文提出了一种自适应于不同样本的、动态确定摘要长度的策略。随着 信息技术的发展和信息量的大量增多,提出了很多自动摘要的算法。在 彭 摘要 这些众多的算法中,都有一个共同的现象—摘要的长度均需事先给定。 然而,实际的情况是,随着信息样本的不同,该信息样本所包含的信息 量也是不同的。为了能够全面地反映
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 史磊,王永成;英文文献自动摘要系统研究[J];情报学报;1999年06期
2 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
3 张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期
4 刘洋,王永成;基于Web服务自动摘要系统的安全实现方案[J];计算机工程与应用;2005年15期
5 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
6 谭种;陈跃新;;自动摘要方法综述[J];情报学报;2008年01期
7 龙华;何中市;伍星;李双庆;;基于依存内容单元的金字塔自动摘要评估[J];计算机工程;2009年13期
8 ;计算机中文文本自动摘要系统通过专家鉴定[J];预防医学文献信息;1996年03期
9 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
10 张筱丹;胡学钢;;基于向量空间模型的自动摘要冗余处理研究[J];合肥工业大学学报(自然科学版);2010年09期
11 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期
12 陈珂;殷凡;;中文自动摘要综述[J];福建电脑;2007年02期
13 王永成;刘功申;刘传汉;胡佩华;孙展;;论文本的自动摘要[J];中国索引;2003年02期
14 阿热帕提·尕依提;维尼拉·木沙江;;基于统计的维吾尔文网页自动摘要提取研究[J];电脑知识与技术;2011年01期
15 沈洲,王永成,韩客松;一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践[J];高技术通讯;2001年09期
16 刘郑;杜祝平;;浅析英文自动摘要技术[J];魅力中国;2008年28期
17 王麒;江开忠;杨静;顾君忠;;基于领域本体的文档自动摘要算法[J];华东师范大学学报(自然科学版);2007年05期
18 王永成,王继才;中文文本摘要的自动编制[J];微型电脑应用;1998年02期
19 张奇,黄萱菁,吴立德;一种新的句子相似度度量及其在文本自动摘要中的应用[J];中文信息学报;2005年02期
20 耿焕同,蔡庆生,赵鹏,于琨;一种基于词共现图的文档自动摘要研究[J];情报学报;2005年06期
中国重要会议论文全文数据库 前10条
1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 苗家;马军;陈竹敏;;一种基于HITS算法的blog文摘方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 蒙应杰;张文;吴超;;基于粗集的数据库水印属性选择优化问题[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 闫光辉;李战怀;吴海军;;基于Z-Ordering技术的分形属性选择方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 朱佳贤;;无指导学习环境下基于属性相关性分析和聚类算法的属性选择问题研究[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
8 汪红林;丁金涛;王红玲;周国栋;;基于依存关系的语义角色标注[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
9 王倩;何婷婷;闻彬;宋乐;张茂元;;基于依存关系的中文情感要素抽取技术研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 傅爱平;;广义依存关系和汉语自动分析[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者 黄彩燕 实习记者 苏静雯;中日经济依存关系显著[N];亚太经济时报;2007年
2 江瑞平;中日经济依存关系“易位”[N];人民日报;2004年
3 刘向晨;让文件捉迷藏[N];中国电脑教育报;2003年
4 路向军(作者单位:天津市委党校);高技术产业对传统产业的依存关系[N];科技日报;2000年
5 苍苍;教你两手[N];中国电脑教育报;2004年
6 马海兵;网络舆情及其分析技术[N];光明日报;2007年
7 本报记者 张霞;马振骋:生活无“译本”[N];21世纪经济报道;2007年
8 柳涛;秋季更需护理肌肤[N];中华工商时报;2002年
9 零和千;练习使用黑白网点[N];电脑报;2005年
10 ;换个角度看问题 中国人比美国人更擅长[N];中国社会报;2007年
中国博士学位论文全文数据库 前10条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
4 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
7 张丽娟;微阵列基因表达数据分类问题中的属性选择技术研究[D];国防科学技术大学;2008年
8 王琪;软件质量预测模型中的若干关键问题研究[D];上海交通大学;2007年
9 刘光远;基于数据挖掘的移动通信用户流失研究[D];吉林大学;2007年
10 夏国恩;基于商务智能的客户流失预测模型与算法研究[D];西南交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 李阜;基于滑窗取词的单文档自动摘要技术研究[D];国防科学技术大学;2010年
2 阿热帕提·尕依提;基于统计的维吾尔网页自动摘要提取研究[D];新疆大学;2011年
3 余博;基于维基百科的多文档自动摘要系统研究[D];武汉科技大学;2011年
4 商玥;面向概念查询的生物医学多文档摘要技术研究[D];大连理工大学;2011年
5 许旭阳;网络新闻多文档自动摘要技术研究[D];解放军信息工程大学;2011年
6 章芝青;基于语义的单文档自动摘要研究[D];浙江大学;2010年
7 熊芝;中文网页自动摘要系统的设计与实现[D];华南理工大学;2011年
8 张文静;搜索引擎返回结果的自动摘要研究[D];中国石油大学;2010年
9 鲁凡;基于分形理论的自动摘要[D];吉林大学;2004年
10 杨秋洁;基于IV属性选择的随机森林模型研究[D];合肥工业大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978