收藏本站
《上海交通大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于内容相关度计算的文本结构分析方法研究

钟茂生  
【摘要】: 文本结构可分为物理和逻辑结构两种形式,文本的物理结构是指组成文本的基本要素(如标题、段落、句子、词汇和标点符号等)在文本中的实际位置所决定的结构,可以用向量空间模型予以表示;文本的逻辑结构是指组成文章思想内容的主题、层次、段落、句子、主题词在概念意义上所形成的逻辑关系,通常用树或图予以表示。文本结构自动分析就是期望计算机能够自动将一个文本划分成互不相交的若干文本单元,或者从语义上将文本解析成为一棵层次结构树,以便获得文章本来的逻辑结构。 文本结构分析对于实现文本理解和文本推理具有重要意义,只有从宏观上把握文章的逻辑结构,才能更合理的从全局的视角理解文章的主题及中心思想;同时,文本结构分析结果对于文本自动摘要、基于篇章段落的信息检索、话题检测与跟踪等自然语言处理任务也具有重要作用和影响。然而,文本结构通常需要在理解上下文内容的基础上才能获得,而对语言的理解又超出了目前计算机的能力和水平,因此,要使计算机在没有理解上下文内容的前提下,准确的分析出文本的组织结构,是一个非常困难的问题。 本文根据文本篇章组织结构理论以及文本组织结构特点,将文本结构分析转换成为线性结构分析或者层次结构分析任务。据此,首先通过研究词语间语义相关度计算方法、句子间语义关系识别和句子间语义相关度计算方法,进行文本上下文内容相关性分析和相关度计算,并以此为基础,研究对文本进行线性结构分析或者层次结构分析的关键技术和方法。 具体来说,本文的创新性工作主要体现在以下几个方面: (1)对文本结构进行抽象描述。将文本中的“句子”、“标题”、“自然段”、“文章”、“主题/子主题”等语言学概念加以形式标记;提出了“基本论证结构”、“递归论证结构”、“文本结构树”、“文本主题单元”等层次结构概念及表示方法,以便对文本组织结构模式进行抽象描述;对“主题的级”、“主题结点粒度”进行了定量化描述和计算,以便刻画文本结构树中主题结点对内容的涵盖能力。 (2)研究了词语间语义相关关系及相关度计算方法。在分析词语间相关度和相似度概念关系的基础上,提出了词语间语义广义相关度的概念及其相应的计算方法:首先从外延逻辑思想出发,提出了一种基于语料的、通过构建词语语义关系二分图的方法,来计算词语狭义相关度;同时,以汉语概念内涵逻辑模型思想为基础,提出了一种基于词典内涵释义及释义项展开的词语语义相关度计算方法,其计算结果强调的是词语在内涵概念上的关联关系;然后,将两种方法计算的相关度结果进行融合,得到词语语义广义相关度。通过标准的MC中文版测试数据集评测结果表明,融合得到的广义相关度汲取了外延逻辑刻画实体分类的优势和内涵逻辑刻画汉语凸显实体内涵属性特征的优势,取长补短、优势互补,其计算结果更接近人的认知和判断。 (3)研究了语篇上下文句子之间语义关系及相关度计算方法。首先,根据语言学界总结的句际语义关系和它对应的词语形式标记,提出了一种机器自动识别上下文句际语义关系的方法(定性方法),包括词语形式模板的获取、模板冲突消解的方法以及句际语义关系识别算法,并用实验验证了该方法的有效性和识别效果;其次,提出了一种基于词语广义相关度的句子间相关度计算方法(定量方法),实验表明,本文提出的句子间相关度计算结果比句子间相似度计算结果更接近人的理解和判断。 (4)根据词语广义相关度计算方法、句际语义关系分析与相关度计算方法,研究了文本线性结构分析中的相关问题,提出了一种基于内容相关性分析的文本分割方法,实验表明,本文提出的方法在文本分割性能上要好于经典的TextTiling算法,而且也好于现有文献报道的面向中文的文本分割算法的性能。 (5)研究了文本层次结构分析的相关问题,并假定同一类型的文本应该具有相同或相似的组织结构模式。据此,提出了一种基于Na?ve Bayes模型的文本层次结构分析方法,即用Na?ve Bayes模型从训练文本中学习文本的组织结构模式,再根据获取得到的文本组织结构模式,对待分析的同类型文本,按照自底向上的方式,递归的向上归并,直到生成只包含一个根结点的文本结构树。同时,提出了一种基于生物序列比对算法的文本结构分析方法,从训练文本中学习文本组织结构模式,以便进行文本组织结构分析。实验结果表明,上述两种方法都取得了一定的效果,从目前的测试数据集上看,前者要比后者具有更好的性能。
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
2 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
3 谭振华;程维;常桂然;高晓兴;;基于词汇相关度模型的个性化信息检索算法[J];东北大学学报(自然科学版);2008年04期
4 张志琴;图式知识与语篇衔接关系的建立[J];山西大学师范学院学报;2002年01期
5 王广正;王喜凤;;基于知网语义相关度计算的词义消歧方法[J];安徽工业大学学报(自然科学版);2008年01期
6 陈莉萍;;汉语篇章结构标注的理论支撑[J];南京航空航天大学学报(社会科学版);2008年03期
7 张德禄;语篇内部衔接的原则[J];解放军外国语学院学报;2001年06期
8 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
9 石晶;戴国忠;;基于PLSA模型的文本分割[J];计算机研究与发展;2007年02期
10 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
中国重要会议论文全文数据库 前1条
1 郎君;刘挺;秦兵;;基于决策树的中文名词短语指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 凌坚;新闻视频主题识别与跟踪的研究[D];浙江大学;2007年
2 乐明;汉语财经评论的修辞结构标注及篇章研究[D];中国传媒大学;2006年
中国硕士学位论文全文数据库 前1条
1 马楠;现代汉语句段内的语义联系[D];黑龙江大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 刘远志,秦峰;文本叙事断点分析[J];阿坝师范高等专科学校学报;2003年02期
2 谭姗燕;;主位推进模式与作为听力材料的人物介绍语篇分析[J];阿坝师范高等专科学校学报;2005年04期
3 袁文彬;翻译研究的语篇分析模式及其意义[J];安徽大学学报;2004年01期
4 丁俊苗;;不足与需要:论标点符号的语法功能[J];安徽大学学报(哲学社会科学版);2008年04期
5 袁周敏,金梅;英语称赞语的表达方法[J];安徽教育学院学报;2005年01期
6 位巧;;主位推进的语篇功能及其对英语写作教学的启示[J];安徽职业技术学院学报;2011年01期
7 侯家旭;论语篇连贯中的词汇衔接[J];安徽农业大学学报(社会科学版);2000年03期
8 喻家楼;语篇中显性连贯、隐性连贯与译作的语义传递[J];安徽农业大学学报(社会科学版);2002年05期
9 王玉明,冯晓英;叙述视角的选择与文体效果[J];安徽农业大学学报(社会科学版);2002年05期
10 李晓陆;新闻语篇功能分析[J];安徽农业大学学报(社会科学版);2004年02期
中国重要会议论文全文数据库 前10条
1 彭楠赟;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 徐赳赳;;现代汉语篇章中启后性分析[A];和谐社会:社会建设与改革创新——2007学术前沿论丛(下卷)[C];2007年
3 潘治文;李怡平;;一个基于语料库的葡中翻译系统[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
4 陈华;;从主位结构角度对比分析英语语篇[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
5 蔡有恒;;功能理论与语篇语体特征分析[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
6 庄丽莹;;面子体系与话语中的策略选择[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
7 彭菲;;学术论文提要的主位推进模式分析[A];福建省外国语文学会2006年年会暨学术研讨会论文集(上)[C];2006年
8 郑建萍;;从系统功能语法看布什每周电台演讲主位选择[A];福建省外国语文学会2006年年会暨学术研讨会论文集(上)[C];2006年
9 朱华;邱天河;;词汇衔接模式在大学英语阅读教学中的应用[A];2010年贵州省外语学会年会暨学术研讨会论文集[C];2010年
10 湛高峰;李超;;基于语义的违法上网行为旁路阻断系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
中国博士学位论文全文数据库 前10条
1 张喜荣;英汉叙述语篇参与者标识手段对比研究[D];上海外国语大学;2010年
2 胡洁;建构视角下的外宣翻译研究[D];上海外国语大学;2010年
3 仇贤根;外宣翻译研究[D];上海外国语大学;2010年
4 汤春艳;篇章类型语用研究[D];上海外国语大学;2010年
5 原雪;二语/外语语境下的批判性阅读理论构建研究[D];上海外国语大学;2010年
6 杨石乔;基于语料库的汉语医患会话修正研究[D];上海外国语大学;2010年
7 李秉震;汉语话题标记的语义、语用功能研究[D];南开大学;2010年
8 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
9 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
10 龙又珍;现代汉语寒暄系统研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 于娜;政治演讲中主位及主位推进模式分析[D];广西师范学院;2010年
3 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
4 陈文华;从标记主位视角看小说《鸡蛋》[D];上海外国语大学;2010年
5 彭静;语篇翻译中的衔接[D];上海外国语大学;2010年
6 尹剑波;《老人与海》及其汉译本中的语篇连贯性研究[D];上海外国语大学;2009年
7 康秀丽;中国德语教学中的篇章理解[D];上海外国语大学;2010年
8 王磊;系统功能语法视角下的语篇分析在专业英语精读课中的运用[D];上海外国语大学;2010年
9 路晓辉;史蒂文森主要小说叙事研究[D];上海外国语大学;2010年
10 胡婕妤;一项关于主位推进模式在汉英交替口译中的研究[D];上海外国语大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 高慧颖;甘仞初;;基于智能聚类的相关度内容检索方法[J];北京理工大学学报;2005年12期
4 朱靖波,王宝库,姚天顺;一种规则描述语言NPRDL语言[J];东北大学学报;1996年06期
5 王伟;“修辞结构理论”评介(上)[J];国外语言学;1994年04期
6 王伟;“修辞结构理论”评介(下)[J];国外语言学;1995年02期
7 张德禄;系统功能语言学的新发展[J];当代语言学;2004年01期
8 刘亚军,徐易;一种基于加权语义相似度模型的自动问答系统[J];东南大学学报(自然科学版);2004年05期
9 李鹤龄;信息熵、玻尔兹曼熵以及克劳修斯熵之间的关系——兼论玻尔兹曼熵和克劳修斯熵是否等价[J];大学物理;2004年12期
10 郑有志;简析语段的几种连接手段[J];福建外语;1995年04期
中国重要会议论文全文数据库 前1条
1 颜伟;荀恩东;;基于WordNet的英语词语相似度计算[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前5条
1 周静;现代汉语递进范畴研究[D];华东师范大学;2003年
2 熊华;视频内容结构化技术的研究与实现[D];中国人民解放军国防科学技术大学;2001年
3 聂仁发;现代汉语语篇研究[D];湖南师范大学;2002年
4 刘桂清;视频摘要技术的研究与实现[D];国防科学技术大学;2004年
5 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
中国硕士学位论文全文数据库 前1条
1 张瑞霞;基于语义的汉语句法分析系统的研究与实现[D];西北大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 万晓鸣;;基于逻辑段划分算法统计的文本信息检索[J];电脑知识与技术;2009年32期
2 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
3 侯玉芳;一种基于统计的文本逻辑段划分算法——Dotplotting算法的原理及其实现[J];现代图书情报技术;2005年10期
4 林鸿飞,战学刚,姚天顺;文本结构分析与基于示例的文本过滤[J];小型微型计算机系统;2000年04期
5 梁文婷;何中市;龙华;田春娥;;改进传统文本结构关系图的文本结构分析[J];微计算机信息;2009年03期
6 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
7 刘军万,刘飞飞;基于潜在语义索引的文本结构分析方法的研究[J];情报杂志;2004年01期
8 刘飞飞,刘军万;数字图书馆中基于神经网络的汉语文本分析方法的研究[J];情报杂志;2005年05期
9 林鸿飞;战学刚;姚天顺;;基于潜在语义索引的文本分析方法[J];模式识别与人工智能;2000年01期
10 李广慧,王大亮,鞠林;基于有序聚类的文本结构分析方法[J];太原科技大学学报;2005年03期
中国重要会议论文全文数据库 前10条
1 李宇翔;李双红;李茹;;基于社区问答的问题相关度检测研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 时达明;林鸿飞;;基于内容相关度和语义分析的Blog热点话题发现[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 孙芮英;王永海;;基于内容管理技术的博物馆网站管理和发布系统[A];数字博物馆研究与实践(2009)[C];2010年
4 何盈捷;冯月利;王珊;;Peer-to-Peer环境下基于内容的智能搜索[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
5 徐忠强;;电视新闻节目基于内容的视频检索技术及其实现[A];2009中国电影电视技术学会影视技术文集[C];2010年
6 舒后;何薇;;基于内容的多媒体数据库检索技术[A];第一届全国数字媒体技术专业规范建设研讨会论文集[C];2010年
7 李志宏;史元春;;Web上基于内容的病理图像检索的设计与展望[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
8 金韬;杨姝;鲁振德;;基于内容的图象颜色检索系统[A];1999中国控制与决策学术年会论文集[C];1999年
9 杜俊俐;王海龙;;基于内容的图像检索系统研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
10 杨鸿宾;;多媒体搜索[A];中国教育技术协会2004年年会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 世纪证券综合研究所 刘昆;业绩与仓位变动相关度不高[N];证券时报;2006年
2 本报评论员 戎国彭;股票与期货,哪个离你更近?[N];杭州日报;2008年
3 李云林;美国债券市场的六个特点[N];学习时报;2007年
4 联合证券 王慧;中小板保持强势[N];中国证券报;2008年
5 本报记者 丰捷;高校需要准确定位[N];光明日报;2009年
6 吉宝飞;新年度棉价要看八大因素[N];中华合作时报;2008年
7 ;基于内容计费的智能解决方案[N];人民邮电;2003年
8 巴战辉;基于内容计费的实现[N];通信产业报;2004年
9 蒋瑛琨 彭艳;震荡市中的ETF选择[N];上海证券报;2007年
10 中信建投期货 孙晓飞钱灿;台、港股市大幅振荡 期现走势基本一致[N];期货日报;2007年
中国博士学位论文全文数据库 前10条
1 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
2 杨建波;基于多小波及遗传算法的数字水印技术研究[D];吉林大学;2005年
3 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
4 肖仕武;同步发电机定子绕组内部故障暂态仿真及其应用的研究[D];华北电力大学(北京);2003年
5 冯登国;频谱理论及其在通信保密技术中的应用[D];西安电子科技大学;1995年
6 洪宇;基于语义结构和时序特征的话题检测与跟踪技术研究[D];哈尔滨工业大学;2009年
7 张一飞;基于内容的医学图像检索关键技术研究[D];东北大学;2009年
8 刘宇翔;基于内容的音乐分析研究[D];清华大学;2011年
9 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
10 周良;基于内容的工程图档检索及其关键技术研究[D];南京航空航天大学;2008年
中国硕士学位论文全文数据库 前10条
1 姚永祥;基于XTM的政务知识导航系统的研究与实现[D];大连理工大学;2006年
2 尹本雄;中文搜索引擎中的文档特征提取研究[D];广西师范大学;2004年
3 李艳群;网络教育资源的建设及查询方法研究[D];山东师范大学;2005年
4 闫蓉;基于语义的汉语词义消歧方法研究[D];西北大学;2006年
5 韩冰;基于BP网络的高校主题爬虫的设计与实现[D];东北师范大学;2009年
6 陶芳;关系数据挖掘的正负关联规则挖掘算法[D];哈尔滨理工大学;2009年
7 刘金;模块化设计在中央空调产品项目开发中的应用[D];上海交通大学;2009年
8 商雪晶;基于内容的相关书籍推荐技术研究[D];哈尔滨工业大学;2010年
9 李京京;主题爬虫的关键技术研究[D];吉林大学;2008年
10 刘金盼;新闻语料库中基于概念网络的词语相关度计算[D];华东师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026