生物医学多文档自动文摘系统设计与实现
【摘要】:
生物医学研究是二十一世纪最受关注的研究领域之一,尤其随着生物医学研究在分子层面的展开,人类基因组计划的实施完成,产生了海量的生物医学数据,并形成了数以百计的生物医学数据库。这些医学数据后面隐藏着大量的生物医学知识,对研究人员和医疗工作者来说,如何方便、快捷、准确的查询与检索这些知识,并从这些繁杂的数据中找到有用的信息对他们的工作有着至关重要的作用。
本文从当前医学研究人员和医疗工作者面临的实际问题出发,将多文档自动文摘技术应用到生物医学领域,重点研究了生物医学多文档自动文摘系统的设计与实现。首先,根据PubMed上查询结果的特点,利用爬虫程序将用户在PubMed上的查询结果保存到本机计算机中,并针对原始原料的特点,提出语料库建立的方法,建立语料库。
其次,在建立语料库的基础上,为了规范数据格式,对语料库进行预处理,重点研究对语料的词性标注和命名实体识别,并最终选取标记效果更好、速度更快的双向推理算法,最简优先策略,确保了对语料词的准确标记的同时,克服了传统算法的缺陷。
最后,对规范化的数据进行主题识别,主题识别是本文的关键,本文在根据医学文献的数据量大的特点,采用K-means聚类算法进行主题聚类的同时,对传统的算法进行改进,使其在聚类的同时可以动态的增加类别,克服了传统K-means聚类算法初始聚类数固定,难发现潜在主题的缺点。并首次提出交替增强策略,将其应用于文摘句的抽取,最终对抽取的文摘句排序,生成文摘,并对生产文摘采用两种内部评测方法评测,取得了很好的效果。
|
|
|
|
1 |
王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期 |
2 |
郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期 |
3 |
杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期 |
4 |
郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期 |
5 |
黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期 |
6 |
刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期 |
7 |
沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期 |
8 |
金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期 |
9 |
高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期 |
10 |
汤晓鲁;李旎;;手工文摘的评价与自动文摘的产生[J];贵图学刊;1998年02期 |
11 |
孙春葵,钟义信;关于自动文摘系统中文摘句式的一种机器学习方法[J];计算机工程与应用;2000年05期 |
12 |
杨建林;中文自动文献系统研究[J];情报学报;2001年04期 |
13 |
王开铸,李俊杰,李秀坤,吴岩,张军;自动文摘系统的历史和现状[J];电脑学习;1995年04期 |
14 |
刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期 |
15 |
李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期 |
16 |
;计算机检索、机器翻译编辑、自动标引、自动文摘[J];电子科技文摘;2006年08期 |
17 |
王开铸,吴岩,刘挺,张军;自动文摘设计模型[J];电脑学习;1995年05期 |
18 |
吴岩,李秀坤,王开铸;HIT-97Ⅰ型英文自动文摘系统[J];情报学报;1998年05期 |
19 |
朱爱群;自动标引和自动文摘对机器翻译的影响[J];现代图书情报技术;1997年01期 |
20 |
杨建林;一种使用自动聚类思想的自动文摘方法[J];情报学报;2001年05期 |
|