收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文本自动摘要和信息抽取方法及其应用研究

刘娜  
【摘要】:随着文本数据特别是网页信息的持续激增,如何快速、自动地抽取海量文本中蕴含的主要或重要信息,已成为人们关心的一个热点研究问题,由此刺激了面向文本的信息抽取技术的迅速发展。文本摘要技术能够抽取文本的篇章结构及主要信息,自动生成单篇文档或多篇文档的摘要,可以看成是信息抽取技术的一种。而通常意义上的信息抽取技术则主要是抽取文本中蕴含的用户所需的特定重要信息。 本文面向循证医学(EBM)网页并结合其它类型的训练文本,重点研究文本的自动摘要和信息抽取方法,主要针对信息抽取结果不理想、主题划分不明确、段落聚类算法对初始值敏感、聚类数目需要人工设定等问题,提出一系列新颖的研究方法和模型。 (1)提出一种段落特征与隐马尔可夫模型相结合的信息抽取方法。该方法与其它信息抽取方法的不同之处在于以段落而不是单词为研究对象。网页上的信息经过预处理以后,以段落为单位,保存成文本序列,每一个段落要转换成特定的字符串,这些字符串做为隐马尔可夫模型中的可观察变量。实验表明,无论是准确率还是召回率,以段落为观察序列的信息抽取结果都要优于以单词为观察序列的信息抽取结果。 (2)对文档进行主题划分,为摘要的生成做准备。主题划分的过程是将文本中的段落表示成向量空间模型,利用互信息计算连续段落的关联程度,将关联程度较弱的段落作为划分的边界。考虑到算法中人工定义参数会对划分结果造成一定程度的不利影响,所以本文采用遗传算法对主题划分过程中出现的参数阈值进行优化。实验表明,互信息与遗传算法相结合的主题划分方法在准确率上取得了较好的结果。 (3)对单词-文档谱聚类方法的基本步骤进行分析,找出其对初始值敏感的根本原因,提出一种基于模糊K-调和均值的单词-文档谱聚类方法。该方法包括两个方面,一是从矩阵相似的角度对谱聚类中的Laplacian矩阵进行处理,使其满足对初始值不敏感的条件。二是通过加入模糊的概念,用模糊K-调和均值算法代替K-均值算法,使聚类结果对初始值不敏感。实验表明,基于模糊K-调和均值的单词-文档谱聚类方法不仅使聚类结果对初始值不敏感,而且在一定程度上改进了数据的聚类结果。 (4)利用形态学的方法确定聚类数目,并对单词-文档谱聚类方法进行改进。确定聚类数目主要分三个步骤,第一步将单词-文档谱聚类方法中产生的矩阵转换成VAT灰度图,第二步利用灰度形态学、图像二值化、距离转换等图像处理技术对VAT灰度图进行过滤,第三步对过滤后的VAT灰度图建立信号图,并进行平滑处理,通过平滑后的信号图的波峰波谷数目确定文档集的聚类数目。实验表明,该方法能够提高单词-文档谱聚类方法的聚类效果。 (5)在LDA主题模型的基础上,提出了基于主题融合的多文档自动摘要算法Titled-LDA。考虑到文档的标题信息对摘要形成有很强的指示作用,因此为每篇文档分别建立标题和正文的主题模型,并对两个模型进行融合。融合过程中,根据两种形态的信息熵,进行自适应不对称学习,从而对不同形态的主题分布进行加权处理,融合后的模型适当地关联了标题和正文的信息,因此有助于摘要质量的提高。实验表明,Titled-LDA方法在DUC标准数据集上取得了较好的效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
2 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
3 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
4 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
5 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期
6 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
7 魏宁;;基于手机终端的网页自动摘要系统的设计[J];黑龙江科技信息;2011年21期
8 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
9 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期
10 冯曦曦;朱学芳;;基于Spring框架的农业网站信息资源采集器设计与实现[J];信息化研究;2011年03期
11 黄长伟;;自动文摘技术研究现状分析[J];中外企业家;2011年14期
12 孙中友;李培峰;朱巧明;;事件信息抽取中的数据预处理方法研究[J];计算机应用与软件;2011年08期
13 谷列先;丁晓青;;基于人物关系分析的视频自动摘要算法[J];高技术通讯;2010年09期
14 李莲春;周金治;;网络音视频语义信息抽取系统[J];计算机工程;2011年13期
15 赵小明;朱洪波;陈黎;王亚强;秦湘清;于中华;;基于多分类器的金融领域多元关系信息抽取算法[J];计算机工程与设计;2011年07期
16 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
17 卫佳君;宋继华;;自动文摘的方法研究[J];计算机技术与发展;2011年08期
18 许建豪;;基于电子商务的精确搜索引擎的研究与实现[J];南宁职业技术学院学报;2011年04期
19 殷彬;杨会志;;灵活结构网页的正文提取[J];计算机技术与发展;2011年09期
20 赵小兵;邱莉榕;赵铁军;;多民族语言本体知识库构建技术[J];中文信息学报;2011年04期
中国重要会议论文全文数据库 前10条
1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
3 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
5 苗家;马军;陈竹敏;;一种基于HITS算法的blog文摘方法[A];第六届全国信息检索学术会议论文集[C];2010年
6 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
9 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
10 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
4 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
6 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
7 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
8 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
9 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
10 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
4 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
5 郭力;Web正文信息抽取与面向层次结构的分类技术研究[D];华南理工大学;2011年
6 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
7 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
8 张静;面向OA期刊检索结果页面的信息抽取方法研究[D];燕山大学;2010年
9 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
10 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 马海兵;网络舆情及其分析技术[N];光明日报;2007年
5 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
6 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
7 董振东;到用户中去[N];中国计算机报;2003年
8 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
9 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
10 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978