Internet科技信息资源门户网站(STIP)系统的实践研究
【摘要】:
Internet是全球最大而且还在迅速增长的信息资源库,有效地组织和开发
Internet信息资源,促进Internet信息资源的利用,对于文献情报机构有着
重要的意义。本文将“门户网站”的概念引入文献情报领域,提出了开发“Internet
科技信息资源门户网站(简称科技信息门户,Science&Technology Information
Portal,STIP)”的构想,并利用门户网站这种信息搜索、加工、组织和服务的
新模式,来推动文献情报机构参与Internet上科技信息资源的开发利用,拓展和
增强文献情报机构的服务功能。
在研究和分析了Internet上的数据标记技术、搜索引擎技术、自动文摘及
自动分类技术、信息检索技术、以及信息发布技术的基础之上,结合中国科学
院知识创新工程的需要,按照软件工程的原理,设计了针对科学技术领域的垂
直门户网站系统:STIP。该研究项目已完成了其中几个主要子系统:(1)实现
了集Web页面搜索、内容分析和metadata抽取三个功能于一体的网络机器人:
STRobot;(2)开发了辅助人工进行Internet信息收集的工具:STBrowser;(3)
开发了面向Internet用户的Web信息服务网站:STPortal,通过它提供信息检索、
信息导航、专题报导、科技新闻、个性化服务、科技论坛、点击排行、网站提
交等服务;(4)借助镜像工具,开发了镜像系统:STMirror,并通过Web提供
全文检索服务。
在系统的设计和实践过程中,该论文对一些领域作了创新性尝试,如:将
系统建构在先进的Microsoft数字神经结构之上,充分利用其组件技术来开发
STIP系统:利用Java技术,研制了多线程搜索算法和精悍的内容分析器;利用
数据库系统的特性,开发了逻辑组配检索、加权检索和自然语言检索等多种检
索方式;充分利用了“推送”技术,实现了真正的个性化动态频道推送服务。
经过此课题的研究,初步形成了一套创建垂直门户网站系统的解决方案,拥有
了一批自主版权的,可用于搜集、加工、整理、和发布Internet信息资源的核心
技术,为中科院文献情报系统参与Internet信息资源的开发,打下了良好的基础。