收藏本站
《湖南大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

智能搜索引擎理论与应用研究

陈治平  
【摘要】: 随着Internet的广泛应用,Web得到了迅猛的发展,Web上的信息呈指数级增长,因此,如何对这种海量Web信息进行自动处理成为非常重要的研究课题。传统搜索引擎搜索的内容繁杂,导致查询结果中存在大量无关信息,降低了查询精度。一种新的研究趋势是结合领域知识和智能技术研究搜索引擎,即基于领域的智能搜索引擎(Domain-based Intelligent Search Engine)。智能搜索引擎采用机器学习的方法研究文本信息的自动搜集、抽取与分类等处理过程,由此可以减少大量人力资源的需求,并提高信息处理的效率和精度。本文深入研究了智能搜索引擎中所使用的理论、算法与实现技术,采用巩固学习、隐马尔科夫模型(HMM)、朴素贝叶斯分类模型等机器学习方法在网络蜘蛛、信息抽取、文本预处理和信息检索等方面提出了若干新的算法,并建立了仿真平台和实验原型系统。理论分析和实验结果表明,这些算法具有较好的性能。 网络蜘蛛是智能搜索引擎中首先需要解决的问题。本文利用Web网页分布群聚性的特点,结合巩固学习方法,提出了一种新的启发式搜索算法。算法根据网页与主题的相关程度将网页分为与主题相关的网页集群与过渡型的网页集群,利用模拟退火的算法进行评估。在与主题相关的网页集群中进行搜索时,使用立即回报加速挖掘的进度;在过渡型的网页集群中使用未来回报拓宽探测的范围以加快定位过程。针对四所大学计算机系网站搜索的实验表明,算法具有较高的搜索效率。 针对Web上的各种网页信息,如何有效地抽取出论文标题、作者姓名、摘要等相关内容以方便查询,是智能搜索引擎的主要任务之一。目前基于隐马尔科夫(HMM)信息抽取模型一般以单词作为基本抽取单位,考虑到文本排版格式、分隔符等信息的存在,文本实际上可以看作是由一些文本分块序列组成,同一分块内的所有单词只可能属于同一个状态,而不同分块可以属于一个或多个状态。结合这种分块的思想,本文提出了基于文本分块的HMM信息抽取算法。实验结果表明,这种方法比基于HMM模型的信息抽取算法具有更好的性能。 文本信息处理通常采用向量空间模型表示文本信息,需要对单词进行预处理以降低单词数量。结合对单词过滤与特征选取两类常用预处理方法的研究,本文提出了基于最小类差异的特征过滤算法。算法通过分析文本特征的分布特性以 及区分类的情况,将文本特征划分为单类特征、多类特征与一般特征等三种类型, 按照特征在各类之间的分布差异,将类分布差异较小的特征所对应的一般特征进 行过滤,实验结果表明这种算法有效地过滤了大量的无关信息和弱相关信息,提 高了分类算法的精度。 信息检索是智能搜索引擎中的查询机制。本文结合W亡b信息表示的特点, 提出了一种N层向量空间模型。模型将整个W七b信息按照结构的不同划分为多 个层次,根据各层次的不同作用分别进行相似度计算。理论分析与实验结果表明, 这种模型比传统向量空间模型具有更好的查全率与查准率。 基于超链接的信息检索方法是一种新型的信息检索机制。本文针对基于超 链接的HITs(H yPerllnk一玩duced ToPio search)算法,结合N层向量空间模型的思 想,提出了一种基于锚点信息的超链接检索排序算法。算法利用N层向量空间 模型进行相似度计算,结合网页的链接信息进行排序。与HITS算法、TFIDF算 法等信息检索方法的实验结果比较,新算法在信息检索的查全率与查准率方面取 得了更好的效果。 针对W七b信息的动态性将导致搜索引擎所采集的信息失效,而一般的策略 采用固定周期的信息更新算法,本文提出了一种基于最高响应比算法的WWW索引 信息库更新方法,利用索引信息的访问情况以及网页的更新频度计算网页的更新 周期,按照不同更新周期的情况进行信息的有效性检查,不仅减轻了系统信息维 护的工作量,而且保证了信息的有效性。 最后,本文提出了一个比较完整的搜索引擎设计模型,结合本文在网络蜘 蛛、信息抽取、文本分类、信息检索等方面的研究内容,在Windows操作系统 平台上实现了一个简单的原型系统。
【学位授予单位】:湖南大学
【学位级别】:博士
【学位授予年份】:2003
【分类号】:TP393.09

【引证文献】
中国硕士学位论文全文数据库 前1条
1 林海霞;中文专业搜索引擎优化策略研究[D];燕山大学;2006年
【参考文献】
中国期刊全文数据库 前1条
1 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
【共引文献】
中国期刊全文数据库 前10条
1 马永军,方凯,方廷健;基于支持向量机和距离度量的纹理分类[J];中国图象图形学报;2002年11期
2 马永军,方凯,王定成,方廷健,陈卫;基于支持向量机和距离度量的管道内表面图像分类方法研究[J];数据采集与处理;2002年02期
3 李凯,郭子雪;一种基于SVM的函数模拟方法[J];微机发展;2001年03期
4 陶卿,孙德敏,范劲松,方廷健;基于闭凸包收缩的最大边缘线性分类器[J];软件学报;2002年03期
5 戴先宇,王明文,吴水秀,张石林;带参数的搜索引擎[J];江西师范大学学报(自然科学版);2002年04期
6 陈治平,林亚平,彭雅,王雷,童调生;基于最小类差异的无关信息预处理算法[J];电子学报;2003年11期
7 陈治平,林亚平,童调生;基于N层向量空间模型的信息检索算法[J];计算机研究与发展;2002年10期
8 王颖楠,滕飞,解莉,孙俏;Web挖掘技术[J];吉林工学院学报(自然科学版);2002年01期
9 胥桂仙,苏筱蔚,陈淑艳;中文文本挖掘中的无词典分词的算法及其应用[J];吉林工学院学报(自然科学版);2002年01期
10 胥桂仙,许建潮,连远锋,李昱翠;文本挖掘中的特征表示及聚类方法[J];吉林工学院学报(自然科学版);2002年03期
中国重要会议论文全文数据库 前10条
1 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
3 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
4 LI Xiang-yang , ZHANG Ya-fei , LU Jian-jiang, XU Bao-wen Institute of Communications Engineering, People's Liberation Army University of Science and Technology, Nanjing 210007, Jiangsu, China; Department of Computer Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 曹玮祺;梁华瑞;朱雷;李涓子;王克宏;;基于半结构化信息模型的信息检索[A];第六届全国计算机应用联合学术会议论文集[C];2002年
6 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 许欢庆;王永成;孙强;;基于遗传算法的定题信息搜索策略[A];第一届学生计算语言学研讨会论文集[C];2002年
8 毛颖;周源远;王继成;;信息过滤技术研究[A];第一届学生计算语言学研讨会论文集[C];2002年
9 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 张永梅;基于融合的人脸识别方法研究[D];中北大学;2005年
2 李兴;高光谱数据库及数据挖掘研究[D];中国科学院研究生院(遥感应用研究所);2006年
3 唐万梅;几个预测方法及模型的研究[D];内蒙古大学;2006年
4 陈伏兵;人脸识别中鉴别特征抽取若干方法研究[D];南京理工大学;2006年
5 郑宇杰;特征提取方法及其应用研究[D];南京理工大学;2007年
6 程军圣;基于Hilbert-Huang变换的旋转机械故障诊断方法研究[D];湖南大学;2005年
7 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
8 蔡从中;支持向量机及其在生物材料功能研究中的应用[D];重庆大学;2003年
9 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
10 徐芳;航空影像分割的支持向量机方法[D];武汉大学;2004年
中国硕士学位论文全文数据库 前10条
1 陈伟运;基于Agent的个性化信息检索系统研究[D];华中科技大学;2005年
2 周春艳;面向对象的高分辨率遥感影像信息提取技术[D];山东科技大学;2006年
3 张健;基于Web的资源搜索引擎[D];电子科技大学;2007年
4 赵立刚;搜索引擎的研究与设计[D];吉林大学;2005年
5 马彦波;基于本体论的信息过滤技术研究[D];西北大学;2005年
6 马慧敏;中文文本自动分类方法的研究和实现[D];华北电力大学(河北);2005年
7 邱春艳;基于粗糙集理论的智能信息检索方法的研究[D];东北师范大学;2005年
8 田宏钟;基于数据挖掘的证券业客户关系管理中的客户细分研究[D];东华大学;2005年
9 潘春华;中文农林信息资源主动推送服务研究[D];北京林业大学;2005年
10 高倩;基于高分辨率雷达距离像的自动目标识别研究[D];南京航空航天大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 刘守芬,孙晓芳;论网络犯罪[J];北京大学学报(哲学社会科学版);2001年03期
2 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
3 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
4 岳清;浅析搜索引擎的原理及发展前景[J];大众科技;2005年05期
5 韩立新,陈贵海,谢立;一个面向Internet的个性化信息检索系统模型[J];电子学报;2002年02期
6 谷峰;吴扬扬;;文本分类关键技术[J];福建电脑;2006年09期
7 赵新慧,朱伟;分布协作式搜索引擎系统的初步探索[J];抚顺石油学院学报;2003年04期
8 赵兴涛;王斌君;刘舒;;正则表达式在文档自动识别中的应用[J];中国人民公安大学学报(自然科学版);2005年04期
9 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
10 陈建秋,邓飞其,刘发贵;智能化搜索引擎分析与探讨[J];广州大学学报(自然科学版);2002年03期
中国博士学位论文全文数据库 前10条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
3 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
4 强保华;异构数据库语义集成技术研究[D];重庆大学;2005年
5 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
6 黄茂军;地理本体的形式化表达机制及其在地图服务中的应用研究[D];武汉大学;2005年
7 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
8 于海波;基于规则和本体的应用安全策略研究[D];吉林大学;2006年
9 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
10 闫强;信息系统安全评估研究[D];北京大学;2003年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
3 王家锋;分布式智能搜索引擎技术[D];北京工业大学;2003年
4 熊回香;网络信息检索及其发展趋势研究[D];华中师范大学;2003年
5 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
6 张涛;网络蜘蛛在智能搜索引擎中的设计与实现[D];兰州理工大学;2003年
7 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
8 陈魁;智能搜索引擎系统的分析设计与开发[D];大连理工大学;2004年
9 艾丹祥;基于本体论的知识检索研究[D];武汉大学;2004年
10 凌海云;基于语义网的智能搜索技术的研究与实现[D];电子科技大学;2004年
【二级参考文献】
中国期刊全文数据库 前2条
1 陶卿,方廷健,孙德敏;基于约束区域的连续时间联想记忆神经网络[J];计算机学报;1999年12期
2 陶卿,方廷健;求解约束Minimax问题的神经网络模型[J];控制理论与应用;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 张俊;危韧勇;;基于连续HMM语音识别系统的构建与分析[J];计算机与现代化;2009年10期
2 郑炜;沈文;张英鹏;;基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究[J];西北工业大学学报;2010年04期
3 李毅;顾健;顾铁军;;基于朴素贝叶斯方法的邮件样本预筛选[J];信息网络安全;2010年10期
4 马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期
5 鲁林丽,丁明跃,刘小平;基于HMM的红外点目标序列图像扰动补偿方法[J];红外与激光工程;2000年04期
6 刘春丽,陈树中,韩安奇;隐马尔科夫模型及其在面像识别中的应用[J];计算机应用与软件;2004年04期
7 张阳,张利军,闫剑锋,李战怀;基于关联特征的朴素贝叶斯文本分类器[J];西北工业大学学报;2004年04期
8 徐杰,施鹏飞;图像检索中基于标记与未标记样本的主动学习算法[J];上海交通大学学报;2004年12期
9 廖明涛;张德运;李金库;;基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法[J];微电子学与计算机;2007年08期
10 金展;范晶;陈峰;徐从富;;基于朴素贝叶斯和支持向量机的自适应垃圾短信过滤系统[J];计算机应用;2008年03期
中国重要会议论文全文数据库 前10条
1 李海军;王钲旋;王利民;苑森淼;;基于主成分分析提升朴素贝叶斯[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
2 王宏生;孙美玲;李家峰;;隐马尔科夫模型在构建语言模型中的应用[A];创新沈阳文集(A)[C];2009年
3 张阳;李战怀;卢维扬;;通过弱化朴素贝叶斯假设提高朴素贝叶斯文本分类器的性能[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 ;基于耦合隐马尔科夫模型的听觉视觉双模态语音识别[A];第六届全国人机语音通讯学术会议论文集[C];2001年
5 李海军;王钲旋;王利民;苑森淼;;基于贝叶斯网络的回归树学习算法[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
6 蒋盛益;谢照青;余雯;;基于代价敏感的朴素贝叶斯不平衡数据分类研究[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
7 张劲松;戴蓓倩;郁正庆;王长富;;汉语识别中隐马尔科夫模型初始化的研究[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 张云涛;龚玲;王永成;;基于语料库的朴素贝叶斯方法的词义消歧[A];2005年中国智能自动化会议论文集[C];2005年
9 于哲舟;杨佳东;周春光;王纲巧;;智能仪器嵌入式声纹识别技术方法[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
10 肖镜辉;刘秉权;;一种非时齐的隐马尔科夫模型及其在音字转换中的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
2 董立岩;贝叶斯网络应用基础研究[D];吉林大学;2007年
3 吴义坚;基于隐马尔科夫模型的语音合成技术研究[D];中国科学技术大学;2006年
4 张小强;几类高效入侵检测技术研究[D];西南交通大学;2006年
5 杜修平;基于数据挖掘的证券态势估计系统[D];天津大学;2006年
6 王璐;未知环境中移动机器人视觉环境建模与定位研究[D];中南大学;2007年
7 吴振华;离线中文签名验证技术研究[D];华中科技大学;2006年
8 王美珍;垃圾邮件行为模式识别与过滤方法研究[D];华中科技大学;2009年
9 赵立权;粒度计算的模型研究[D];安徽大学;2007年
10 龙潜;噪声环境下的语音识别技术研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 叶海燕;粒子群优化算法及其在股票市场预测优化问题中的应用[D];广州大学;2008年
2 杜守栓;方言口音普通话语音自动切分算法研究[D];中国科学院研究生院(计算技术研究所);2006年
3 张爽;基于HMM的转录因子结合位点识别方法研究[D];东北师范大学;2009年
4 李翠芸;联机手绘图形识别的自适应HMM方法[D];西安电子科技大学;2003年
5 刘斌斌;基于HMM模型的Web信息抽取方法的研究与改进[D];重庆大学;2008年
6 胡为成;基于遗传算法的朴素贝叶斯分类研究[D];合肥工业大学;2006年
7 禤毅良;电子商务智能推荐系统研究[D];广东工业大学;2004年
8 洪文;基于隐Markov模型的步态识别研究[D];哈尔滨工程大学;2005年
9 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
10 赵琳瑛;基于隐马尔科夫模型的中文命名实体识别研究[D];西安电子科技大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026