收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

智能搜索引擎理论与应用研究

陈治平  
【摘要】: 随着Internet的广泛应用,Web得到了迅猛的发展,Web上的信息呈指数级增长,因此,如何对这种海量Web信息进行自动处理成为非常重要的研究课题。传统搜索引擎搜索的内容繁杂,导致查询结果中存在大量无关信息,降低了查询精度。一种新的研究趋势是结合领域知识和智能技术研究搜索引擎,即基于领域的智能搜索引擎(Domain-based Intelligent Search Engine)。智能搜索引擎采用机器学习的方法研究文本信息的自动搜集、抽取与分类等处理过程,由此可以减少大量人力资源的需求,并提高信息处理的效率和精度。本文深入研究了智能搜索引擎中所使用的理论、算法与实现技术,采用巩固学习、隐马尔科夫模型(HMM)、朴素贝叶斯分类模型等机器学习方法在网络蜘蛛、信息抽取、文本预处理和信息检索等方面提出了若干新的算法,并建立了仿真平台和实验原型系统。理论分析和实验结果表明,这些算法具有较好的性能。 网络蜘蛛是智能搜索引擎中首先需要解决的问题。本文利用Web网页分布群聚性的特点,结合巩固学习方法,提出了一种新的启发式搜索算法。算法根据网页与主题的相关程度将网页分为与主题相关的网页集群与过渡型的网页集群,利用模拟退火的算法进行评估。在与主题相关的网页集群中进行搜索时,使用立即回报加速挖掘的进度;在过渡型的网页集群中使用未来回报拓宽探测的范围以加快定位过程。针对四所大学计算机系网站搜索的实验表明,算法具有较高的搜索效率。 针对Web上的各种网页信息,如何有效地抽取出论文标题、作者姓名、摘要等相关内容以方便查询,是智能搜索引擎的主要任务之一。目前基于隐马尔科夫(HMM)信息抽取模型一般以单词作为基本抽取单位,考虑到文本排版格式、分隔符等信息的存在,文本实际上可以看作是由一些文本分块序列组成,同一分块内的所有单词只可能属于同一个状态,而不同分块可以属于一个或多个状态。结合这种分块的思想,本文提出了基于文本分块的HMM信息抽取算法。实验结果表明,这种方法比基于HMM模型的信息抽取算法具有更好的性能。 文本信息处理通常采用向量空间模型表示文本信息,需要对单词进行预处理以降低单词数量。结合对单词过滤与特征选取两类常用预处理方法的研究,本文提出了基于最小类差异的特征过滤算法。算法通过分析文本特征的分布特性以 及区分类的情况,将文本特征划分为单类特征、多类特征与一般特征等三种类型, 按照特征在各类之间的分布差异,将类分布差异较小的特征所对应的一般特征进 行过滤,实验结果表明这种算法有效地过滤了大量的无关信息和弱相关信息,提 高了分类算法的精度。 信息检索是智能搜索引擎中的查询机制。本文结合W亡b信息表示的特点, 提出了一种N层向量空间模型。模型将整个W七b信息按照结构的不同划分为多 个层次,根据各层次的不同作用分别进行相似度计算。理论分析与实验结果表明, 这种模型比传统向量空间模型具有更好的查全率与查准率。 基于超链接的信息检索方法是一种新型的信息检索机制。本文针对基于超 链接的HITs(H yPerllnk一玩duced ToPio search)算法,结合N层向量空间模型的思 想,提出了一种基于锚点信息的超链接检索排序算法。算法利用N层向量空间 模型进行相似度计算,结合网页的链接信息进行排序。与HITS算法、TFIDF算 法等信息检索方法的实验结果比较,新算法在信息检索的查全率与查准率方面取 得了更好的效果。 针对W七b信息的动态性将导致搜索引擎所采集的信息失效,而一般的策略 采用固定周期的信息更新算法,本文提出了一种基于最高响应比算法的WWW索引 信息库更新方法,利用索引信息的访问情况以及网页的更新频度计算网页的更新 周期,按照不同更新周期的情况进行信息的有效性检查,不仅减轻了系统信息维 护的工作量,而且保证了信息的有效性。 最后,本文提出了一个比较完整的搜索引擎设计模型,结合本文在网络蜘 蛛、信息抽取、文本分类、信息检索等方面的研究内容,在Windows操作系统 平台上实现了一个简单的原型系统。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
2 钟艳花,余伟红,余永权;Web文本挖掘系统及其关键技术研究[J];计算机工程与应用;2003年34期
3 张俊;危韧勇;;基于连续HMM语音识别系统的构建与分析[J];计算机与现代化;2009年10期
4 马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期
5 鲁林丽,丁明跃,刘小平;基于HMM的红外点目标序列图像扰动补偿方法[J];红外与激光工程;2000年04期
6 刘春丽,陈树中,韩安奇;隐马尔科夫模型及其在面像识别中的应用[J];计算机应用与软件;2004年04期
7 潘文平;沈春林;张赵行;邢建芳;;基于动态手势控制的交互式体三维显示[J];光电工程;2010年12期
8 钟锐;;基于隐马尔科夫模型的入侵检测系统研究[J];赣南师范学院学报;2011年03期
9 王天树,郑南宁,李岩,徐迎庆,沈向洋;用于动态序列合成的基于核密度估计的隐马尔科夫模型[J];计算机学报;2003年02期
10 梁佳玉,刘昌平,黄磊;脱机自由手写英文单词的识别[J];计算机应用;2004年09期
11 陈燕龙;钟碧良;;基于HMM和微粒群优化算法的表情识别[J];计算机工程;2008年13期
12 洪文,黄凤岗,苏菡;基于连续隐马尔科夫模型的步态识别[J];应用科技;2005年02期
13 马宝山;朱义胜;;基于隐马尔科夫模型的基因预测算法[J];大连海事大学学报;2008年04期
14 尹木;肖铮;;词性标注与动词细分类研究[J];电脑知识与技术;2009年24期
15 刘辉;杨俊安;许学忠;;基于HMM和SVM串联模型的低空飞行目标声识别方法[J];数据采集与处理;2010年06期
16 温炜;吕强;杨鹏;杨凌云;吴进珍;黄旭;;一种基于HMM的蛋白质侧链旋转异构体构造方法[J];小型微型计算机系统;2011年01期
17 左东广,韩崇昭,郑林,朱洪艳,卞树檀;基于时变马尔科夫转移概率的机动目标多模型跟踪[J];西安交通大学学报;2003年08期
18 于海树;付兴武;;电机故障检测支持向量机的优化[J];控制工程;2007年S1期
19 刘冠军;徐哲;邱静;;直升机航向姿态系统机内测试降虚警方法[J];振动、测试与诊断;2008年03期
20 彭春艳;张晖;包玲玉;陈昌平;;基于条件随机域的生物命名实体识别[J];计算机工程;2009年22期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 王宏生;孙美玲;李家峰;;隐马尔科夫模型在构建语言模型中的应用[A];创新沈阳文集(A)[C];2009年
3 李海军;王钲旋;王利民;苑森淼;;基于主成分分析提升朴素贝叶斯[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
4 ;基于耦合隐马尔科夫模型的听觉视觉双模态语音识别[A];第六届全国人机语音通讯学术会议论文集[C];2001年
5 张阳;李战怀;卢维扬;;通过弱化朴素贝叶斯假设提高朴素贝叶斯文本分类器的性能[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
7 张劲松;戴蓓倩;郁正庆;王长富;;汉语识别中隐马尔科夫模型初始化的研究[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 李海军;王钲旋;王利民;苑森淼;;基于贝叶斯网络的回归树学习算法[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
9 于哲舟;杨佳东;周春光;王纲巧;;智能仪器嵌入式声纹识别技术方法[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
10 肖镜辉;刘秉权;;一种非时齐的隐马尔科夫模型及其在音字转换中的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
4 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
6 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
7 吴义坚;基于隐马尔科夫模型的语音合成技术研究[D];中国科学技术大学;2006年
8 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
9 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
10 吴振华;离线中文签名验证技术研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘斌斌;基于HMM模型的Web信息抽取方法的研究与改进[D];重庆大学;2008年
2 杨永贵;中文信息抽取关键技术研究与实现[D];北京邮电大学;2008年
3 刘杰;Web中文信息抽取中命名实体识别的研究及应用[D];西北大学;2009年
4 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
5 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
6 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
7 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
8 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
9 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
10 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
6 董振东;到用户中去[N];中国计算机报;2003年
7 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
8 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
9 本报记者 余戈;电脑为什么能战胜人脑[N];北京科技报;2004年
10 马志彦;悄然而至的EIP[N];中国计算机报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978