收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生物医学多文档自动文摘系统设计与实现

孟庆富  
【摘要】: 生物医学研究是二十一世纪最受关注的研究领域之一,尤其随着生物医学研究在分子层面的展开,人类基因组计划的实施完成,产生了海量的生物医学数据,并形成了数以百计的生物医学数据库。这些医学数据后面隐藏着大量的生物医学知识,对研究人员和医疗工作者来说,如何方便、快捷、准确的查询与检索这些知识,并从这些繁杂的数据中找到有用的信息对他们的工作有着至关重要的作用。 本文从当前医学研究人员和医疗工作者面临的实际问题出发,将多文档自动文摘技术应用到生物医学领域,重点研究了生物医学多文档自动文摘系统的设计与实现。首先,根据PubMed上查询结果的特点,利用爬虫程序将用户在PubMed上的查询结果保存到本机计算机中,并针对原始原料的特点,提出语料库建立的方法,建立语料库。 其次,在建立语料库的基础上,为了规范数据格式,对语料库进行预处理,重点研究对语料的词性标注和命名实体识别,并最终选取标记效果更好、速度更快的双向推理算法,最简优先策略,确保了对语料词的准确标记的同时,克服了传统算法的缺陷。 最后,对规范化的数据进行主题识别,主题识别是本文的关键,本文在根据医学文献的数据量大的特点,采用K-means聚类算法进行主题聚类的同时,对传统的算法进行改进,使其在聚类的同时可以动态的增加类别,克服了传统K-means聚类算法初始聚类数固定,难发现潜在主题的缺点。并首次提出交替增强策略,将其应用于文摘句的抽取,最终对抽取的文摘句排序,生成文摘,并对生产文摘采用两种内部评测方法评测,取得了很好的效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
2 郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期
3 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期
4 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
5 黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期
6 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
7 沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期
8 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
9 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
10 汤晓鲁;李旎;;手工文摘的评价与自动文摘的产生[J];贵图学刊;1998年02期
11 孙春葵,钟义信;关于自动文摘系统中文摘句式的一种机器学习方法[J];计算机工程与应用;2000年05期
12 杨建林;中文自动文献系统研究[J];情报学报;2001年04期
13 王开铸,李俊杰,李秀坤,吴岩,张军;自动文摘系统的历史和现状[J];电脑学习;1995年04期
14 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
15 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
16 ;计算机检索、机器翻译编辑、自动标引、自动文摘[J];电子科技文摘;2006年08期
17 王开铸,吴岩,刘挺,张军;自动文摘设计模型[J];电脑学习;1995年05期
18 吴岩,李秀坤,王开铸;HIT-97Ⅰ型英文自动文摘系统[J];情报学报;1998年05期
19 朱爱群;自动标引和自动文摘对机器翻译的影响[J];现代图书情报技术;1997年01期
20 杨建林;一种使用自动聚类思想的自动文摘方法[J];情报学报;2001年05期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 刘德喜;姬东鸿;;基于基本要素的文摘内容连贯性评测模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 王萌;王晓荣;李春贵;唐培和;;基于局部与全局信息的自动文摘算法[A];广西计算机学会2007年年会论文集[C];2007年
8 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 马亮;何婷婷;陈劲光;李芳;邵伟;;一种利用关键词提取的面向查询多文档文摘技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
3 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
4 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
5 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
6 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
7 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
8 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
9 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
10 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
2 张明慧;基于主题模型的中英文多文档自动文摘[D];苏州大学;2011年
3 桂卓民;基于事件的多文档自动文摘系统的研究[D];华中师范大学;2010年
4 孟威;面向微博的自动文摘研究[D];昆明理工大学;2012年
5 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
6 谢静芝;面向循证医学的多文档自动文摘技术研究[D];大连海事大学;2010年
7 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
8 乔小斐;中文自动文摘关键技术的研究与实现[D];西安电子科技大学;2010年
9 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
10 郝志新;基于改进的模糊C均值聚类算法的多文档自动文摘[D];哈尔滨工业大学;2009年
中国重要报纸全文数据库 前10条
1 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
2 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
3 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
4 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
5 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
6 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
7 江获;数据库是语言学家的重要工具[N];中国社会科学院院报;2004年
8 本报记者 姚从权;我国自己的大规模口语库即将建成[N];中国社会科学院院报;2004年
9 富士通中国研究开发中心总经理 石崎洋之;不尊重知识产权将丧失一切[N];光明日报;2002年
10 卢烈红;面对三千年前的语法[N];光明日报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978