汉语非相关文献知识发现的研究与系统实现
【摘要】:
随着科学技术的快速发展,学科分工愈来愈细。不同学科间表面上没有任何联系的文献中,可能隐含着未被发现的有价值的关联。挖掘文献之间的这些隐含的联系对科学发展具有重要推动作用。近20年来,情报工作者对这一领域展开了积极探讨,美国芝加哥大学的情报学教授Don R.Swanson,首先以充分的文献证据论证了基于非相关文献的知识发现思想。随后,各国科学家都纷纷用不同的方法来测试和验证Swanson的思想和结论,分析所采用的数据源皆为Medline记录。
本文继承了Swanson的思想,以中国期刊网1979年到2006年全文数据库生物医药卫生领域的文献为数据源,分别研究开放式和闭合式非相关文献的知识发现算法,并实现基于汉语的非相关文献知识发现系统。Swanson算法只对标题进行了处理,而本文将其算法进行了延伸,分别对标题和摘要都进行了处理。并且解决了处理汉语文献过程遇到的许多实际问题,如汉语分词、语词多义性等等。
在研究开放式知识发现过程中,通过验证“偏头痛/镁”这对假设在汉语文献中是否存在关联,来判断本文采用的开放式知识发现算法的可行性。开放式知识发现系统对标题和摘要分别进行了处理,算法都是模拟Swanson的思想。但是因为每个词在每篇标题中只出现一次(大于一次的忽略),而在摘要中可能出现大于一次的现象,所以在处理标题和摘要时,具体的算法公式略有区别。结论是,无论处理标题还是摘要,通过开始文献,中间词,目标词的步骤都能从“偏头痛”找到“镁”。使用标题计算与使用摘要计算相比,优点是速度快,缺点是找到的中间词不如以摘要计算多,而且找到的目标词“镁”的排列位置不如以摘要计算靠前。
闭合式知识发现过程,目的是通过书目不相关联的“雷诺氏病/鱼油”、“偏头痛/镁”之间的逻辑关联的存在性,验证本文采用的闭合式知识发现算法在汉语文献中的可行性,若可行,则闭合式知识发现系统可以用来验证开放式知识发现系统提出的假设是否准确。系统采用的是Swanson教授本人的闭合式知识发现算法,同样对标题和摘要都进行了处理,结果发现用标题计算仅能求得部分中间词,而用摘要计算可以求得几乎所有期望得到的中间词,可见此算法处理摘要的效果优于处理标题。
最后,本文分别对开放式和闭合式发现过程进行了验证与分析,并把发现结果跟Swanson教授的发现结果进行了对比讨论。得出如下结论:由于存在语种区别,人工干预,处理方法的细微差别等问题,本文得到的结果跟Swanson的结果不完全一致。但是Swanson教授的算法思想应用在汉语文献中同样可行。
|
|
|
|
1 |
黄水清;熊健;李志燕;;闭合式非相关文献知识发现方法在中文文献中的验证[J];中国图书馆学报;2007年05期 |
2 |
刘菊红;张晓艳;阳丹;;基于非相关文献的知识发现研究进展[J];医学信息学杂志;2011年06期 |
3 |
黄水清;程冲;李志燕;;开放式非相关文献知识发现方法在中文文献中的验证[J];情报理论与实践;2008年02期 |
4 |
黄水清;马俊岭;;非相关文献知识发现复合关联的模型与实证[J];情报理论与实践;2011年04期 |
5 |
曹志杰;冷伏海;;非相关文献知识发现方法在航天科技情报研究中的应用分析[J];情报理论与实践;2008年04期 |
6 |
张铧予;;试论基于文献的知识发现中资源标引的改进[J];现代情报;2010年12期 |
7 |
吴常青;;知识集成与基于非相关文献的知识发现法[J];情报杂志;2007年11期 |
8 |
李晓菲;;非相关文献知识发现方法在人文科学研究中的局限性[J];情报科学;2008年05期 |
9 |
王涛,王宇晗,蔡建国;开放式控制系统的现状与展望[J];机械制造;1999年10期 |
10 |
;OMS和OSA双软管网[J];每周电脑报;1999年11期 |
11 |
韩权利,马宏伟,张斌,杨来侠;开放式数控系统[J];机械设计与制造工程;2001年01期 |
12 |
;2002年全国开放式分布与并行计算学术会议(DPCS2002)征文通知[J];软件学报;2002年04期 |
13 |
卢胜利,王睿鹏,祝玲;面向CIMS的开放式数控系统[J];宁夏工程技术;2004年04期 |
14 |
李先祥,邝小磊,屈莉莉;自动化专业开放式实践教学平台的研究和实践[J];中山大学学报论丛;2004年04期 |
15 |
陈德妙,张桂香;基于Windows 2000下开放式数控系统软件的开发[J];组合机床与自动化加工技术;2005年04期 |
16 |
徐晓峰;张浩;贾晨辉;陆剑峰;;开放式监控平台及其实时中间件性能研究[J];制造业自动化;2006年01期 |
17 |
徐晓峰;张浩;樊留群;陆剑峰;;基于实时中间件的开放式监控平台及其研究[J];机电一体化;2006年01期 |
18 |
袁昊;苏许斯;;基于—站式服务的开放式阅览室管理初探[J];图书情报工作;2006年S2期 |
19 |
李攀峰;高云婷;;数控系统中PLC信息交换技术[J];设备管理与维修;2007年05期 |
20 |
郝丽云;郭启煜;;主题词分析法进行非相关文献知识发现的探索(Ⅰ)——模拟Swanson的知识发现过程[J];情报学报;2007年05期 |
|