收藏本站
《武汉大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于子串的文本分割与主题标注研究

陈曦  
【摘要】:20世纪末以来,广播、电视、互联网、电子设备和其他媒体每天都会以各种方式告诉人们不同主题的信息,其中很大一部分信息以文档的形式呈现。如何从中找到真正有用的信息成为人们关注的焦点。 文本智能处理系统一般是以整篇文档为基本处理单位,隐性假设一篇文档主要讨论一个主题。实际上,一篇文档往往涉及到一个或多个子主题。因而,基于整篇文档的处理粒度在很多实际应用中难以满足用户更高和更准确的要求。为了满足这种要求,基于内容理解的技术已经得到了广泛的重视。 文本主题分析旨在确定一个文本的主题结构,即识别所讨论的主题,界定主题的外延,跟踪主题的转换,觉察主题间的关系等。本文研究的文本分割、段落抽取与主题标注作为其中重要的组成部分,广泛应用于信息检索、信息整合、问答与文摘等文本智能处理系统中。 文本表示是文本智能处理系统的基础。现有的文本智能处理系统中大多采用基于词语的向量空间模型表示文本。但是,这种方法不能表示词语的顺序信息。为此,本文使用子串表示文本,研究了文本的主题分割、主题段落抽取、命名实体识别和文本主题标注等问题,包括以下几个方面: (1)研究后缀树文档模型,提出了基于子串的文本表示方法。这种方法可以充分利用文本中词语之间的顺序信息。而这些信息对于文本分割,特别是说明性文本的分割非常重要。对汉语自然语言处理而言,这种方法可以减轻由于词语定义的不确定性和分词系统的错误产生的影响。在不分词的情况下也能使文本分割与主题标注达到同样的效果,减少了文本预处理的时间。 (2)给出了改进的句子连贯性度量标准,并在此基础上提出了基于最大割的文本分割算法。通过最大化文本的连贯性割确定最优的文本分割边界,并通过连贯性割的梯度确定文本分割的粒度。在初中化学电子书籍的主题分割实验中,无论采用实际的分割粒度还是自动的分割粒度,本方法都具有更高的准确率。 (3)给出了查询敏感句子连贯性和句子相关性度量标准,并在此基础上提出了基于正则化割的段落抽取算法。使用多目标优化的方法,同时最大化文本的连贯性割与相关性割,抽取与查询最相关的段落。并且,还设计了相应的查询扩展方法,通过段落的子串标记扩展查询。初中化学电子书籍的段落抽取实验表明,同时利用句子的连贯性和查询相关性,以及利用子串进行查询扩展可以提高段落抽取的准确率。 (4)提出了k近似条件随机场模型,研究了其标注和训练的算法,并将其应用于命名实体识别中。这种方法统计未标注文本中词语之间的相似性,利用一组相似词语的特征标注当前的词语,减少了人工标注工作量。通过标准命名实体数据集中的实验,结果显示,利用词语之间的相似性信息可以提高条件随机场方法对命名实体识别的准确率。 (5)给出了标记特征权重以及标记重要性度量标准,并在此基础上提出了基于子串的文本主题标注算法。通过最大边界相关性准则选择文本的多个标记,并且利用文档之间的相似性进行多文档协同标记。设计了基于术语表的子串重要性度量标准。对术语加权可以更准确的发现主题子串,并且自然的去掉绝大部分结构错误的子串。同时研究了子串的位置对子串重要性的影响。在初中化学电子书籍的主题标注实验中,该方法取得了较好的效果。 总之,本文主要使用统计的方法对与文本主题相关的模型和算法进行了深入研究,提高了文本主题分割与标注的准确率,为文本智能处理系统的实现奠定了基础。
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 陈围;莫尧平;陈庶樵;;基于三态内容寻址存储器的多模式匹配算法[J];计算机工程;2011年13期
2 安见才让;王玲玲;;一种汉藏双语句子对齐算法[J];微处理机;2011年03期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 马天宝;;一维线形碳链结构的生长机理[A];2009年全国青年摩擦学学术会议论文集[C];2009年
2 钟茂生;;文本主题分割技术的研究进展[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 叶娜;罗海涛;郑妍;朱靖波;张斌;;基于改进型Dotplotting的文本分割模型[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 叶娜;郑妍;朱靖波;张斌;;基于二维动态规划的文本分割模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 罗海涛;叶娜;朱靖波;;Dotplotting文本分割技术的分析与改进[A];第三届学生计算语言学研讨会论文集[C];2006年
6 陈冬文;张帆;王斌;周启海;;模式匹配算法——KMP算法的改进[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
7 赵艳娟;巴特尔;;一种改进的字符串匹配算法的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
8 李祖裕;古天祥;周继勇;;USB-RS232串口转换与扩展卡的设计[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
9 贺晓丽;;一种用于解决并行任务分布问题的广义遗传算法[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 胡乾苗;文化峰;励金祥;;简单DOL字符串的反演[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
中国重要报纸全文数据库 前10条
1 张军;选购手机谨防“陷阱”[N];中国商报;2001年
2 宋琨;腕上风情[N];福建工商时报;2000年
3 本报记者 张文鸣;碎盘子串成金项链[N];中国石油报;2010年
4 PALADIN;编程沙龙[N];电脑报;2003年
5 ;妙方打造黑衣美人[N];中国矿业报;2002年
6 成志向;做个黑衣美人[N];中华合作时报;2002年
7 中国移动集团研发中心 闫志刚;后3G时代的四大关键技术[N];人民邮电;2004年
8 本报记者 刘宪银;食品手机汽车榜上有名[N];华夏时报;2003年
9 ;对孩子的顺手牵羊喊“停”[N];中国妇女报;2004年
10 记者 巫奕龙;厦门:人鸟大战战难休,与鸟为友得和谐[N];新华每日电讯;2009年
中国博士学位论文全文数据库 前10条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
2 叶娜;文本分割关键技术及其在多文档摘要中的应用研究[D];东北大学;2008年
3 章东平;视频文本的提取[D];浙江大学;2006年
4 扶惠华;玉米Bronze基因座位的分子和遗传特征[D];武汉大学;2004年
5 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
6 涂浩;蠕虫自动防御的关键问题研究[D];华中科技大学;2008年
7 尹传环;结构化数据核函数的研究[D];北京交通大学;2008年
8 熊雪梅;参数化模糊遗传神经网络及在植物病害预测的应用[D];南京农业大学;2004年
9 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
10 陈文宇;形式语言与自动机理论若干问题研究[D];电子科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 郑妍;基于内容的文本分割关键技术[D];东北大学;2008年
2 常兴治;基于全局评价的文本分割技术研究[D];东北大学;2005年
3 吕旭光;基因组断点标本字符串联提取算法[D];山东大学;2011年
4 戴维;基于Gabor特征与SVM的汉字识别系统研究与实现[D];上海交通大学;2009年
5 赵超;视频检索中字幕文本的提取研究[D];上海交通大学;2009年
6 蒋人杰;基于学习的自然背景中文本提取[D];上海交通大学;2007年
7 沈庆华;文本图像处理算法研究[D];湖南大学;2007年
8 蒋小森;基于音视频特征的新闻视频分割技术研究与应用[D];北方工业大学;2009年
9 张建良;视频文本提取技术研究[D];浙江工业大学;2009年
10 王琦;视频文本提取技术研究及在虚拟卡拉OK中的应用[D];杭州电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026