收藏本站
《山东大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于领域主题的Web信息检索技术研究

李新安  
【摘要】:随着网络技术的发展,网上的资源成指数级的增长,如何在Internet这样的海量信息资源中迅速搜索和查找到用户感兴趣的信息已成为网络上必不可少的需要。已经有象Google和百度这样成熟的通用Web搜索引擎出现,并在很大程度上满足了用户Web信息检索的需求。目前的通用Web搜索引擎在传统的全文检索技术基础上,更多地涉及到网页数据全面快速的采集、海量网页数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言处理技术等。 通用Web搜索引擎通常难以收集全所有领域和主题的网络信息,即使信息领域和主题收集比较全面,由于领域和主题范围太宽,很难将各领域和主题都做得精确而又专业,从而使得检索结果无用信息太多。基于领域主题的Web搜索引擎则弥补了这一不足,它是就某一特定的专门的主题或领域范围来提供Web信息检索服务的搜索引擎,以其高度目标化和专业化在各类搜索引擎中占据了一席之地,其查询结果具有很高的针对性,因此用户对查询结果的满意度较高。 本论文主要是探讨基于领域主题的WEB信息检索相关的技术问题,围绕着Web页面信息的抓取与处理、中文分词、文本自动分类、网页排序、索引与搜索等关键技术问题展开讨论。 本文的主要贡献是: (1) 研究并提出了一种基于块的不需要复杂机器学习方法而仅采用探试法来获取并识别Web页面主要信息内容块的快速算法,实验证明该算法在Web页面主要内容块的识别方面有着较高的正确率与召回率,并且利用该算法可以去掉对非主要内容块的存储,对存储网页快照和建立索引也会带来可观的外存存储节约。 (2) 基于简化贝叶斯网络模型提出并实现了一种文本分类算法,该算法的学习时间具有多项式的时间复杂度,并且分类的准确率和召回率均高于朴素贝叶斯方法。
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前2条
1 赵耀;对Deep Web资源集成问题的初步研究[D];河北大学;2008年
2 林远;跨平台手机移动中间件的设计与实现[D];浙江工业大学;2012年
【参考文献】
中国期刊全文数据库 前5条
1 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
2 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
3 金翔宇,孙正兴,张福炎;一种中文文档的非受限无词典抽词方法[J];中文信息学报;2001年06期
4 王晓宇,周傲英;万维网的链接结构分析及其应用综述[J];软件学报;2003年10期
5 石洪波,王志海,黄厚宽,励晓健;一种限定性的双层贝叶斯分类模型[J];软件学报;2004年02期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 黄泽宇,卢润彩;急切式和懒惰式学习策略相结合的决策树分类模型[J];北京交通大学学报;2005年05期
4 陈景年;黄厚宽;杨莉萍;田凤占;;基于分布不完整数据选择性分类器[J];北京交通大学学报;2008年02期
5 陈景年;黄厚宽;徐力;伊传环;;利用增益率构建混合型选择性不完整数据分类器[J];北京交通大学学报;2009年05期
6 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
7 王中锋;王志海;付彬;;贝叶斯网络分类器结构与变量分布的差异性分析[J];北京交通大学学报;2011年02期
8 季元叶;;服务发现体系架构发展现状及新架构的研究[J];办公自动化;2012年10期
9 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
10 马勇;仝瑶瑶;程玉虎;;一种改进的最大相关最小冗余选择性贝叶斯分类器[J];北京科技大学学报;2012年01期
中国重要会议论文全文数据库 前10条
1 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 杨波;秦锋;程泽凯;;一种新的分类学习系统评估度量[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 赵越岭;王英丽;;基于粗糙集感应电动机故障诊断决策规则分析[A];第二十七届中国控制会议论文集[C];2008年
4 ;Gas Thickness On-line Monitoring Instrument Design Based on BP Neural Network[A];第二十七届中国控制会议论文集[C];2008年
5 ;Fault Diagnosis Based on Bayesian Networks for the Data Incomplete Industrial System[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 隋岩;张普;;基于动态流通语料库的“动态词典”编纂[A];中国辞书论集2000[C];2000年
7 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
8 ;A Recursive Method of Learning Bayesian Network for Rule Extraction Based on Information Theory[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 ;The Intelligent Methods for Teaching Quality Comprehensive Assessment[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
10 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘家国;基于突发事件风险的供应链利益分配与行为决策研究[D];哈尔滨工程大学;2010年
2 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
3 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
6 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
8 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
9 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
10 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
4 王芳;基于EVS相似度的邮件社区划分方法研究[D];郑州大学;2010年
5 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
6 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
7 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
8 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
9 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
10 张士军;基于随机游走的网页协同排序算法研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 闫晓婷;宋佳;;AJAX中数据传输的新技术——JSON[J];福建电脑;2007年10期
2 胡文发;白中英;;基于J2ME/J2EE的JSON数据交换的探讨[J];电子设计工程;2009年12期
3 杨德仁;顾君忠;;一种Web查询接口的语义模型[J];华东师范大学学报(自然科学版);2006年05期
4 王仲,陈晓鸥;基于XML的数据交换与存取技术研究[J];计算机工程与应用;2001年24期
5 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
6 朱晓明,刘卫东,蔺为民;数据库连接中间件的研究[J];计算机工程与应用;2003年20期
7 王冲;J2ME开发平台上XML解析器的选择[J];计算机工程与应用;2003年31期
8 张涛;黄强;毛磊雅;高兴;;一个基于JSON的对象序列化算法[J];计算机工程与应用;2007年15期
9 周凯;;基于统计聚类RBF神经网络的孤立点检测研究[J];计算机科学;2006年10期
10 瞿裕忠,张剑锋,陈峥,王丛刚;XML语言及相关技术综述[J];计算机工程;2000年12期
中国博士学位论文全文数据库 前1条
1 刘怀亮;基于Web Services的网络化制造若干关键技术研究[D];西安电子科技大学;2003年
中国硕士学位论文全文数据库 前10条
1 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
2 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
3 杜彦斌;面向服务软件体系架构原理与范例研究[D];首都经济贸易大学;2005年
4 火善栋;基于XML的Deep Web信息抽取系统的研究与初步实现[D];昆明理工大学;2006年
5 徐莹莹;使用表单分类器识别特定领域的深度网入口[D];吉林大学;2007年
6 钱贵平;非结构化Deep Web信息的自动抽取[D];吉林大学;2007年
7 孙翀;自动填充深度网入口表单[D];吉林大学;2007年
8 张娜;基于机器学习的主题Web挖掘技术[D];山东师范大学;2007年
9 仲华;Deep Web模式获取技术研究与应用[D];苏州大学;2007年
10 段录平;基于RBF神经网络的数据挖掘研究[D];哈尔滨理工大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
2 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
3 关英春 ,秦蓓;汉语文字自动统计系统CWSS[J];中文信息学报;1986年01期
4 揭春雨;“信息处理用现代汉语分词规范”的若干问题探讨[J];中文信息学报;1989年04期
5 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
6 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
7 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
8 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
9 刘挺,吴岩,王开铸;串频统计和词形匹配相结合的汉语自动分词系统[J];中文信息学报;1998年01期
10 黄萱菁;吴立德;王文欣;叶丹瑾;;基于机器学习的无需人工编制词典的切词系统[J];模式识别与人工智能;1996年04期
【相似文献】
中国期刊全文数据库 前10条
1 李如平;;搜索引擎技术及应用研究[J];西昌学院学报(自然科学版);2010年03期
2 王宇佳;;网络信息检索发展趋势摭谈[J];现代情报;2008年07期
3 张春红;;文本分类技术应用于学科导航分类的可行性探讨[J];情报科学;2009年07期
4 刘志舜;;关于Web科技信息检索技术的几点思考[J];黑龙江科技信息;2011年15期
5 施水才;;给检索技术赋予知识[J];每周电脑报;2001年44期
6 刘苗苗;张永生;;文本分类技术在搜索引擎中的应用[J];中国新技术新产品;2010年04期
7 柴丽英;;数字图书馆信息检索技术及搜索引擎简介[J];硅谷;2010年21期
8 张睿;;网络信息检索技术在大学语文教学中的应用[J];农业图书情报学刊;2009年06期
9 唐培丽;胡明;解飞;刘钢;;全文检索搜索引擎中文信息处理技术研究[J];情报科学;2006年06期
10 张睿;;网络信息检索技术在大学语文教学中的应用[J];科技文献信息管理;2009年02期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
10 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
2 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
3 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
4 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
5 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
6 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
7 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
8 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
9 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
10 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 李凯;Web挖掘在教学资源搜索引擎中的应用研究[D];东北师范大学;2007年
2 曾砺锋;基于数字有机体数据库的搜索引擎的理论研究与实现[D];电子科技大学;2008年
3 操卫平;基于结构化向量空间模型的中文信息检索系统研究与实现[D];北京工业大学;2008年
4 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年
5 王伟;搜索引擎下Web分类技术研究[D];内蒙古科技大学;2011年
6 韩亮;基于本体的消防信息检索系统的研究[D];大连海事大学;2008年
7 刘金亮;汽车行业垂直搜索系统原型的设计与关键模块的实现[D];北京邮电大学;2008年
8 丁志刚;基于类别意图的信息检索模型[D];北京邮电大学;2009年
9 李新安;基于领域主题的Web信息检索技术研究[D];山东大学;2006年
10 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026