收藏本站
《武汉大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于子串的文本分割与主题标注研究

陈曦  
【摘要】:20世纪末以来,广播、电视、互联网、电子设备和其他媒体每天都会以各种方式告诉人们不同主题的信息,其中很大一部分信息以文档的形式呈现。如何从中找到真正有用的信息成为人们关注的焦点。 文本智能处理系统一般是以整篇文档为基本处理单位,隐性假设一篇文档主要讨论一个主题。实际上,一篇文档往往涉及到一个或多个子主题。因而,基于整篇文档的处理粒度在很多实际应用中难以满足用户更高和更准确的要求。为了满足这种要求,基于内容理解的技术已经得到了广泛的重视。 文本主题分析旨在确定一个文本的主题结构,即识别所讨论的主题,界定主题的外延,跟踪主题的转换,觉察主题间的关系等。本文研究的文本分割、段落抽取与主题标注作为其中重要的组成部分,广泛应用于信息检索、信息整合、问答与文摘等文本智能处理系统中。 文本表示是文本智能处理系统的基础。现有的文本智能处理系统中大多采用基于词语的向量空间模型表示文本。但是,这种方法不能表示词语的顺序信息。为此,本文使用子串表示文本,研究了文本的主题分割、主题段落抽取、命名实体识别和文本主题标注等问题,包括以下几个方面: (1)研究后缀树文档模型,提出了基于子串的文本表示方法。这种方法可以充分利用文本中词语之间的顺序信息。而这些信息对于文本分割,特别是说明性文本的分割非常重要。对汉语自然语言处理而言,这种方法可以减轻由于词语定义的不确定性和分词系统的错误产生的影响。在不分词的情况下也能使文本分割与主题标注达到同样的效果,减少了文本预处理的时间。 (2)给出了改进的句子连贯性度量标准,并在此基础上提出了基于最大割的文本分割算法。通过最大化文本的连贯性割确定最优的文本分割边界,并通过连贯性割的梯度确定文本分割的粒度。在初中化学电子书籍的主题分割实验中,无论采用实际的分割粒度还是自动的分割粒度,本方法都具有更高的准确率。 (3)给出了查询敏感句子连贯性和句子相关性度量标准,并在此基础上提出了基于正则化割的段落抽取算法。使用多目标优化的方法,同时最大化文本的连贯性割与相关性割,抽取与查询最相关的段落。并且,还设计了相应的查询扩展方法,通过段落的子串标记扩展查询。初中化学电子书籍的段落抽取实验表明,同时利用句子的连贯性和查询相关性,以及利用子串进行查询扩展可以提高段落抽取的准确率。 (4)提出了k近似条件随机场模型,研究了其标注和训练的算法,并将其应用于命名实体识别中。这种方法统计未标注文本中词语之间的相似性,利用一组相似词语的特征标注当前的词语,减少了人工标注工作量。通过标准命名实体数据集中的实验,结果显示,利用词语之间的相似性信息可以提高条件随机场方法对命名实体识别的准确率。 (5)给出了标记特征权重以及标记重要性度量标准,并在此基础上提出了基于子串的文本主题标注算法。通过最大边界相关性准则选择文本的多个标记,并且利用文档之间的相似性进行多文档协同标记。设计了基于术语表的子串重要性度量标准。对术语加权可以更准确的发现主题子串,并且自然的去掉绝大部分结构错误的子串。同时研究了子串的位置对子串重要性的影响。在初中化学电子书籍的主题标注实验中,该方法取得了较好的效果。 总之,本文主要使用统计的方法对与文本主题相关的模型和算法进行了深入研究,提高了文本主题分割与标注的准确率,为文本智能处理系统的实现奠定了基础。
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.1

知网文化
【引证文献】
中国硕士学位论文全文数据库 前1条
1 李振;基于LDA和图割的文本主题分割研究[D];山东大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 许勇;宋柔;;基于半CRF模型的百科全书文本段落划分[J];北京工业大学学报;2008年02期
2 张文静;梁颖红;;术语抽取技术研究[J];信息技术;2008年03期
3 石晶;戴国忠;;基于PLSA模型的文本分割[J];计算机研究与发展;2007年02期
4 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期
5 钟彬彬,刘远超,徐志明;基于GA的文本子主题切分中的参数优化研究[J];计算机工程与应用;2005年21期
6 石晶;;文本分割综述[J];计算机工程与应用;2006年35期
7 钟茂生;胡熠;刘磊;;基于词典词语量化关系的中文文本分割方法[J];计算机工程与应用;2008年21期
8 刘豹;张桂平;蔡东风;;基于统计和规则相结合的科技术语自动抽取研究[J];计算机工程与应用;2008年23期
9 葛加银;黄萱菁;吴立德;;基于实体名的文本自动综述研究[J];计算机科学;2004年09期
10 奚建清;罗强;;基于HMM的汉语介词短语自动识别研究[J];计算机工程;2007年03期
中国硕士学位论文全文数据库 前1条
1 常兴治;基于全局评价的文本分割技术研究[D];东北大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 周琼;黄河;;基于百度百科的农业专业词汇自动获取方法研究[J];安徽农业科学;2009年14期
2 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
3 段建勇;李俊;张梅;马礼;;限定领域的自动问答系统研究[J];北方工业大学学报;2010年01期
4 周文鹃;刘自伟;陈昌平;;基于DC3算法的非编码区序列最大串联重复识别[J];兵工自动化;2009年03期
5 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
6 余正涛,樊孝忠,宋丽荣;基于特定问题类别的汉语问答系统查询扩展[J];北京理工大学学报;2005年10期
7 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
8 谭咏梅;王小捷;周延泉;钟义信;;使用SVMs进行汉语浅层分析[J];北京邮电大学学报;2008年01期
9 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
10 吴玉丰;《中国学术期刊(光盘版)》的检索方法[J];图书与情报;2003年01期
中国重要会议论文全文数据库 前10条
1 ;Multiobjective Static Output-Feedback Control with Control Input Constraint for a Class of Nonlinear Systems[A];中国自动化学会控制理论专业委员会D卷[C];2011年
2 史东娜;王枞;李卫;;车牌识别领域的中文术语自动抽取[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
3 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 周云郊;兰凤崇;陈吉清;李宇彤;裘芝敏;;基于刚度与模态分析的客车结构轻量化研究[A];2009年广东先进制造技术(佛山)活动周文集[C];2009年
5 盛作国;胡红;;情报推理的逻辑理论工具——制约逻辑在情报科学中的应用[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
6 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
7 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
8 周云郊;兰凤崇;陈吉清;李宇彤;裘芝敏;;基于刚度与模态分析的客车结构轻量化研究[A];2009海峡两岸机械科技论坛论文集[C];2009年
9 李优;;支持向量机在组块识别中的应用[A];第八届中国青年运筹信息管理学者大会论文集[C];2006年
10 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
2 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
3 江悦;场景图像内容表述和分类研究[D];国防科学技术大学;2010年
4 林鹏;质子交换膜燃料电池电堆的热力耦合封装力学研究[D];大连理工大学;2011年
5 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
6 王延伟;基于物理参数辨识的结构损伤识别方法研究[D];中国地震局工程力学研究所;2011年
7 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
8 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
9 郭江峰;换热器的热力学分析与优化设计[D];山东大学;2011年
10 劳永华;血管内支架结构的生物力学研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
4 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
5 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
6 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
7 晋松;基于社会化标注的查询扩展技术研究[D];大连理工大学;2010年
8 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
9 刘洋;基于粒子群算法的NoC映射问题研究[D];大连理工大学;2010年
10 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 刘铭;王晓龙;刘远超;;基于主题分析的文本分割技术研究[J];电子学报;2009年02期
2 石晶;戴国忠;;基于PLSA模型的文本分割[J];计算机研究与发展;2007年02期
3 王小芳;王瑞芳;张树功;;基于最优化控制模型的文本主题域划分[J];吉林大学学报(理学版);2009年04期
4 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
5 钟彬彬,刘远超,徐志明;基于GA的文本子主题切分中的参数优化研究[J];计算机工程与应用;2005年21期
6 石晶;;文本分割综述[J];计算机工程与应用;2006年35期
7 钟茂生;胡熠;刘磊;;基于词典词语量化关系的中文文本分割方法[J];计算机工程与应用;2008年21期
8 刘娜;唐焕玲;鲁明羽;;文本线性分割方法的研究[J];计算机工程与应用;2008年21期
9 石晶;李万龙;;三种主题分割方法的对比研究[J];计算机工程与应用;2009年18期
10 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期
中国博士学位论文全文数据库 前3条
1 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
2 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
3 叶娜;文本分割关键技术及其在多文档摘要中的应用研究[D];东北大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 李源,何清,史忠植;基于概念语义空间的联想检索[J];北京科技大学学报;2001年06期
2 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
3 傅赛香,袁鼎荣,黄柏雄,钟智;基于统计的无词典分词方法[J];广西科学院学报;2002年04期
4 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
5 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
6 林磊,王晓龙,刘家锋;基于遗传算法的手写体汉字识别系统优化方法的研究[J];计算机研究与发展;2001年06期
7 石晶;戴国忠;;基于PLSA模型的文本分割[J];计算机研究与发展;2007年02期
8 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
9 董险峰,邢罡,马驷良;相连字符的分割算法[J];吉林大学学报(理学版);2003年01期
10 赫枫龄,陶文学,李凯,周力,左万利;新一代网络搜索引擎系统CHINA_VIVI的实现[J];吉林大学学报(理学版);2003年02期
中国重要会议论文全文数据库 前5条
1 鲁松;白硕;;词距离的计算方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 颜伟;荀恩东;;基于WordNet的英语词语相似度计算[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 张毅波;中文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
2 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
中国硕士学位论文全文数据库 前4条
1 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
2 王国琴;基于语义检索的概念空间研究[D];南京理工大学;2004年
3 罗建利;基于用户兴趣的概念查询扩展研究[D];扬州大学;2005年
4 叶凌;基于语义的中文搜索引擎[D];吉林大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 ;信息文本快速阅读技术[J];黄石高等专科学校学报;2004年02期
2 刘建毅;王菁华;王枞;;文本网络表示研究与应用[J];中国科技论文在线;2007年10期
3 吴思竹;张智雄;钱庆;;基于语言网络的文本表示模型研究[J];情报科学;2013年12期
4 于屏方;杜家利;;文本排歧语义图式的自动获取与选择[J];计算机工程与应用;2007年31期
5 陈燕敏;楼喜中;;一种基于集聚确定文本意向结构的方法[J];微计算机信息;2010年18期
6 袁鼎荣;钟宁;张师超;;文本信息处理研究述评[J];计算机科学;2011年02期
7 林鸿飞,战学刚,姚天顺;文本层次分析与文本浏览[J];中文信息学报;1999年04期
8 姚天昉;“自然语言多语种文本生成系统”在上海交通大学研制成功[J];中文信息学报;1999年04期
9 石晶;;文本分割综述[J];计算机工程与应用;2006年35期
10 刘红红;安海忠;高湘昀;;基于文本复杂网络的内容结构特征分析[J];现代图书情报技术;2011年01期
中国重要会议论文全文数据库 前6条
1 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
2 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 刘玲;周经野;罗慧慧;;基于XML的文本规划方法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
5 苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 揭春雨;刘晓月;冼景炬;卫真道;;从网络获取香港法律双语语料库[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
2 赖彦;新闻话语对话性的文本分析与阐释[D];南京师范大学;2011年
3 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
4 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
5 单建芳;面向事件的文本表示研究[D];上海大学;2012年
6 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
7 眭新光;文本信息隐藏及分析技术研究[D];解放军信息工程大学;2007年
8 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
9 叶娜;文本分割关键技术及其在多文档摘要中的应用研究[D];东北大学;2008年
10 潘谦红;分布式信息检索的研究与应用[D];中国科学院研究生院(计算技术研究所);1999年
中国硕士学位论文全文数据库 前10条
1 徐亮;基于倾向性分析的文本信息过滤技术研究[D];哈尔滨工业大学;2007年
2 柴春梅;互联网短文本信息分类关键技术研究[D];上海交通大学;2009年
3 张文明;文本案例知识库构建的关键技术研究[D];西北大学;2010年
4 蒋子海;基于元信息的文本分类与优化技术研究与实现[D];国防科学技术大学;2010年
5 郑勤勤;面向专业领域的文本矩阵模型[D];华南理工大学;2012年
6 付裕;文本分类方案选择方法及原型系统开发[D];大连理工大学;2006年
7 梁旭;评论文本的对立观点摘要的研究[D];北京交通大学;2013年
8 吴锦霞;面向英语学习的文本难度判定[D];哈尔滨工业大学;2007年
9 杨林波;快速文本分类研究[D];江南大学;2008年
10 赵耀;基于关联规则的文本分类研究[D];河北大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026