基于知识库的中文网络检索工具——经济信息智能搜索引擎研究
【摘要】:
本论文试图从计算机技术和图书情报学理论与实践手段出发,应用文献信息自动标
引和组织技术于网页的加工处理过程上。在分析了中外搜索引擎的现状与不足,搜索引
擎分类主题一体化进展以及网页主要特征的基础上,本文提出了针对中文网页特征的信
息标引和组织方案,并利用相关网络技术,构建了一个实验性经济信息智能搜索引擎。
中文网页的自动标引思想主要基于知识库的概念进行。知识库实际上是一个基于《中
图法》的专家知识系统,包括了中图法库、汉表库、分类号—主题词对应库、同义词库、
关键词库、停用词库和特例词库等若干数据库。在确定网页基本信息标引源的基础上,
中文网页主题标引运用了基于词频的统计加权法;通过与分类号—主题词对应库主题词
串的词面相似度计算,进一步完成中文网页的赋号标引,即分类标引。
随后,本文利用Borland Delphi、Visual FoxPro等工具设计并开发了一个包括中文网
页文本信息提取、自动抽词、自动主题与分类标引、标引结果处理、知识库维护等功能,
用以处理中文网页信息的自动标引实验系统;并简要介绍了系统的设计、工作流程、使
用方法及运行条件。
根据分类主题一体化发展方向,本文还设计了检索型、目录型及分类主题一体化检
索系统,并提出基于集成词表的不同引擎间类目体系的兼容互换方案。
文章的最后对中文网页自动标引系统从系统标引效率、标引准确率等方面进行了综
合测评,并客观分析了系统存在的问题和不足。与手工标引相比,自动标引正确率达到
了80%以上。
【学位授予单位】:南京农业大学
【学位级别】:硕士
【学位授予年份】:2001
【分类号】:G354
|
|
|
|
1 |
侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期 |
2 |
丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期 |
3 |
赵妍,侯汉清,耿金玉,叶常妍,何群;中文期刊论文自动标引加权设计研究[J];新世纪图书馆;2004年01期 |
4 |
仲云云,侯汉清,薛鹏军;网页自动标引方案的优选及标引性能的测评[J];情报科学;2002年10期 |
5 |
崔艳华;中图法与网上中文分类系统基本大类结构及序列的比较[J];沈阳教育学院学报;2005年01期 |
6 |
包冬梅,周曰卿;著名中英文搜索引擎检索性能测评[J];现代图书情报技术;2004年01期 |
|
|
|
|
|
1 |
雷景生,林冬雪,符浅浅;基于改进向量空间模型的Web信息检索技术研究[J];计算机工程;2005年01期 |
2 |
印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期 |
3 |
黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期 |
4 |
李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期 |
5 |
李伟超,王兰敬;论搜索引擎的工作机制和发展趋势[J];现代情报;2002年12期 |
6 |
杨思洛;搜索引擎的排序技术研究[J];现代图书情报技术;2005年01期 |
7 |
赵妍,侯汉清,耿金玉,叶常妍,何群;中文期刊论文自动标引加权设计研究[J];新世纪图书馆;2004年01期 |
8 |
赵荣艳;杨靖华;蒋士君;;烟草病害生物防治研究进展[J];安徽农业科学;2006年22期 |
9 |
侯汉清;建立以《中国分类主题词表》为核心的检索语言兼容体系[J];国家图书馆学刊;1998年04期 |
10 |
陆鑫;利用ASP技术实现WEB数据库的访问[J];电子科技大学学报;2000年01期 |
|