收藏本站
《吉林大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于本体的主题爬行技术研究

罗娜  
【摘要】: 随着网络信息内容的迅速增长以及信息环境的越趋复杂,现有的以覆盖所有网页为目标的搜索引擎正面临着严峻的挑战。首先,网页数量呈现出指数级的爆炸性增长趋势,搜索引擎无法索引所有的页面,即使是目前全球最大的搜索引擎Google,其索引的页面数量也仅占Web总量的40%左右。其次,Web信息资源是动态变化的,而这种变化使得搜索引擎对于用户的返回结果中有相当比例是过时的甚至是打不开的网页。再次,由于Internet上的信息过于庞杂,往往让用户对五花八门扑面而来的各种信息而无所适从,不知道如何去获取自己需要的信息,陷入了“信息过载”和“资源迷向”的困境。 针对上述问题,作者全面的回顾了主题爬行和本体论的研究历史,系统深入地分析了主题爬行算法和本体原理,从而总结归纳了现有主题爬行的缺陷与不足,并在此基础上重点研究了基于本体的主题爬行技术,及实现此技术过程中涉及到的相应问题。 本文首先提出了基于本体的主题爬行框架,该框架的优点在于我们不但利用关键字,在爬行算法的设计中还依靠概念和关系等高层次的背景知识来对比搜索网页的文本。这种方法能够很容易达到一个直接的主题。其次,对主题爬行中的关键技术之一网页分类进行了深入研究,提出了基于本体特征提取的PU分类方法,该方法通过两次遍历文档,实现了降维和形成文本向量,再通过CoTraining的学习方式和Affinity Propogation聚类算法使PU文本在正例较少时,提高了PU分类器的性能,并得到了实验验证。再次,利用网页中的视觉信息、标签信息、链接信息和本体概念信息等对网页进行内容分块,在具体的网页分块过程中还提出了一些启发式规则来控制分块的精度和粒度。实验表明,这种分块主题爬行能够解决多主题问题,可以有效的避免主题漂移现象,在一定程度上能解决了灰色隧道穿越问题。同时,我们还首次提出了采用关联规则解决黑色隧道的穿越,该思想也在试验中得到了可行性的验证。最后,我们将前面的思想用于科技文献检索方面,并提出了基于认知心理学、信息传播与遗忘规律的特点构建特定用户兴趣的主题爬行,我们根据用户的检索习惯,跟踪用户的行为模式,通过机器学习方法学习和训练特定用户模型,实现面向特定用户的推荐、过滤等个性化服务。 作者结合国家自然科学基金和吉林省科技发展计划项目的研究,给出了具体的实践。理论分析和实验证明上述方法的实用性及可靠性。
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.41

【引证文献】
中国期刊全文数据库 前1条
1 林碧霞;尹治本;;基于领域本体的垂直搜索引擎模型的研究[J];铁路计算机应用;2010年11期
中国博士学位论文全文数据库 前1条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
中国硕士学位论文全文数据库 前2条
1 卢革超;基于本体的主题搜索引擎技术研究[D];吉林大学;2011年
2 关鑫;网页综合信息与领域本体相结合的主题爬行研究[D];吉林大学;2010年
【参考文献】
中国期刊全文数据库 前8条
1 马亮,陈群秀,蔡莲红;一种改进的自适应文本信息过滤模型[J];计算机研究与发展;2005年01期
2 姜远;周志华;;基于词频分类器集成的文本分类方法[J];计算机研究与发展;2006年10期
3 唐焕玲;林正奎;鲁明羽;邬俊;;一种结合独立性模型与差异评估的Co-Training改进方案[J];计算机研究与发展;2008年11期
4 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
5 刁力力 ,胡可云 ,陆玉昌 ,石纯一;用Boosting方法组合增强Stumps进行文本分类(英文)[J];软件学报;2002年08期
6 崔航,文继荣,李敏强;基于用户日志的查询扩展统计模型[J];软件学报;2003年09期
7 朱靖波;王会珍;张希娟;;面向文本分类的混淆类判别技术[J];软件学报;2008年03期
8 肖宇;于剑;;基于近邻传播算法的半监督聚类[J];软件学报;2008年11期
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前2条
1 于海龙;面向PU问题的文本分类的研究与实现[D];吉林大学;2005年
2 谭新;基于语义特征提取的PU文本分类的研究与实现[D];吉林大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 徐林昊,杨文柱,张绍华,薛文玲,李天柱;Web信息查询研究进展[J];河北大学学报(自然科学版);2001年03期
2 徐建民;刘清江;付婷婷;戴旭;;基于量化同义词关系的改进特征词提取方法[J];河北大学学报(自然科学版);2010年01期
3 池越;夏克文;陈国鹰;苏昶;;一种基于QPSO和WLS-SVM的智能方法[J];河北工业大学学报;2009年02期
4 赵玲玲;杨奎河;任晓鹏;单甘霖;;支持向量机在机械故障诊断中的应用[J];河北工业科技;2007年01期
5 刘东辉;卞建鹏;付平;刘智青;;支持向量机最优参数选择的研究[J];河北科技大学学报;2009年01期
6 王玉;高庆敏;孙丙宇;;基于SVM的GA及其在农业产业结构优化中的应用[J];华北水利水电学院学报;2008年01期
7 单强;邱道尹;;基于LS-SVM的模糊控制器研究[J];华北水利水电学院学报;2008年02期
8 陈国松;黄大荣;;基于信息熵的TFIDF文本分类特征选择算法研究[J];湖北民族学院学报(自然科学版);2008年04期
9 潘锋;储琳琳;张宇俊;;考虑气象因素的SVM方法在短期电力负荷预测中的应用[J];华东电力;2007年11期
10 杨超;李亦滔;;机械设备故障智能诊断技术的现状与发展[J];华东交通大学学报;2011年05期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
6 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
8 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 陈龙;吴志勇;袁春;蒙美玲;蔡莲红;;面向数字版权管理的声纹辅助认证系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 颜七笙;;基于PCA-SVM的动态联盟候选伙伴绩效评价方法[A];第十三届中国管理科学学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
5 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
6 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
7 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
8 杜曼玲;供应链过程管理的分析方法与技术实现[D];北京交通大学;2010年
9 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
10 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
6 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
7 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
8 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
9 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
10 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 周兴茂;汪玲丽;;人类学视野下的网络社会与虚拟族群[J];黑龙江民族丛刊;2009年01期
2 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
3 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
4 张承立;陈剑波;齐开悦;;基于语义网的语义相似度算法改进[J];计算机工程与应用;2006年17期
5 刘菁菁;林鸿飞;赵晶;;基于PageRank和锚文本的网页排序研究[J];计算机工程与应用;2007年10期
6 杨仁广;宋宇;孟祥增;;一种改进Shark-Search的多媒体主题搜索算法[J];计算机工程与应用;2010年14期
7 叶育鑫;欧阳丹彤;;语义Web搜索技术研究进展[J];计算机科学;2010年01期
8 廖明宏;本体论与信息检索[J];计算机工程;2000年02期
9 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期
10 张玲,黄铁军,高文;基于隐马尔可夫模型的引文信息提取[J];计算机工程;2003年20期
中国博士学位论文全文数据库 前3条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 吴砥;学习资源管理与服务关键技术研究[D];华中科技大学;2006年
3 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前4条
1 张红;语义网中的本体推理及其应用研究[D];吉林大学;2004年
2 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
3 孙炜;基于语义网技术的主题搜索引擎原型研究及其在电子政务领域的应用[D];北京交通大学;2008年
4 赵大明;基于本体的专业搜索引擎的研究与设计[D];西北大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 李丹丹;基于本体的知识表示及信息检索研究[D];西南交通大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 晋耀红,苗传江;一个基于语境框架的文本特征提取算法[J];计算机研究与发展;2004年04期
2 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期
3 马亮,陈群秀,蔡莲红;一种改进的自适应文本信息过滤模型[J];计算机研究与发展;2005年01期
4 张岩,李文辉,孟宇,庞云阶;应用PSO的快速纹理合成算法[J];计算机研究与发展;2005年03期
5 李凯,赫枫龄,左万利;PageRank-Pro——一种改进的网页排序算法[J];吉林大学学报(理学版);2003年02期
6 赫枫龄;左万利;张雪松;;高性能网页索引器JU_Indexer的实现[J];吉林大学学报(理学版);2006年01期
7 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
8 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
9 谢晓锋,张文俊,杨之廉;微粒群算法综述[J];控制与决策;2003年02期
10 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
【相似文献】
中国期刊全文数据库 前10条
1 闫青;翟瑞生;;基于本体的智能检索技术研究[J];中小企业管理与科技(上旬刊);2011年09期
2 乔娟;杨炳儒;;面向XML Repository搜索引擎的研究与实现[J];微计算机信息;2006年18期
3 赵亚莉;魏淑琴;;基于本体论的数字图书馆搜索引擎的研究[J];现代情报;2007年08期
4 韩亮;李勇;;基于Ontology的专业领域智能搜索引擎的研究[J];科技信息(学术研究);2007年27期
5 杜光芹;张化祥;赵瑞东;;主题Web挖掘研究[J];计算机技术与发展;2008年02期
6 吴丹丹;和晓军;;基于用户兴趣挖掘的个性化搜索引擎研究[J];科技信息;2011年11期
7 陆虹;;一种基于本体论的个性化网络信息检索模型[J];河南图书馆学刊;2011年04期
8 祝宇;夏诏杰;聂峰光;郭力;;支持向量机在化学主题爬虫中的应用[J];计算机与应用化学;2006年04期
9 杨桂芝;;一种基于信息推送的搜索引擎模型[J];现代电子技术;2007年08期
10 陈智;钱言玉;;基于用户兴趣的个性化搜索引擎研究[J];合肥师范学院学报;2010年03期
中国重要会议论文全文数据库 前10条
1 吴丽辉;张凯;张刚;王斌;;个性化Web信息采集系统PSearch的设计[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 张玉连;陈琳娜;陈金森;;基于本体的个性化服务用户模型研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
3 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
5 罗伟;李陶深;;一种基于本体的个性化搜索引擎模型[A];广西计算机学会2006年年会论文集[C];2006年
6 梁婷婷;张志强;谢晓芹;;搜索引擎评估算法综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
7 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
8 高莺;沈洁;陈沧;刘春阳;叶君峰;;一种基于排序学习的查询意图预测算法[A];第五届全国信息检索学术会议论文集[C];2009年
9 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
10 陆宗城;何灵巧;;搜索引擎检索效果的改进[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
中国重要报纸全文数据库 前10条
1 本报记者  陈芳丹;在大海中捞针[N];计算机世界;2006年
2 本报记者  杨琳桦;“你是宝马,但我说了算”[N];21世纪经济报道;2006年
3 记者 胡红军 王宇寰 冯欢 本报记者 秦海波;搜索引擎市场将超20亿元[N];经济日报;2005年
4 本报记者 王荣 艾建琪;网络江湖力挺“谷姐”[N];深圳商报;2010年
5 李一鑫;搜索排名的红与黑[N];财经时报;2007年
6 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
7 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
8 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
9 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
10 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
中国博士学位论文全文数据库 前10条
1 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
6 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
7 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
8 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
9 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
10 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 肖坤;面向用户兴趣的校园网聚类搜索引擎的研究与实现[D];国防科学技术大学;2010年
2 黄堃;基于本体的面向股票领域搜索引擎的实现技术研究[D];天津大学;2007年
3 沈建良;基于本体论的个性化信息搜索系统研究[D];哈尔滨工程大学;2005年
4 李连江;个性化搜索引擎模型的研究与改进[D];哈尔滨工程大学;2008年
5 徐磊;基于语义Web的智能搜索的研究[D];哈尔滨工程大学;2008年
6 张璇;基于用户兴趣的个性化搜索引擎技术研究[D];湖南大学;2010年
7 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
8 王珍;维、哈、柯文搜索引擎中的自动分类技术研究[D];新疆大学;2010年
9 韩冰;基于BP网络的高校主题爬虫的设计与实现[D];东北师范大学;2009年
10 郭世胜;基于Agent的搜索引擎的研究与实现[D];大连海事大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026