收藏本站
《南京理工大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

Web信息获取技术研究

吴东华  
【摘要】:随着互联网的兴起和信息时代的到来,Web信息获取技术成为当今世界上一大研究的热点。如何最准确的获得人们感兴趣的信息,成为Web信息获取技术研究的重中之重。然而由于互联网内部的多样性以及文档结构的复杂性,Web信息获取技术的研究具有一定的困难,很难涵盖所有范围,专业搜索引擎成为解决这一问题的主要方法。本文选取当今世界上公认最好的计算机专业科学文献搜索引擎Citeseer进行研究,试图提出一种方案,使科学工作者根据自己的兴趣能更加方便、准确的通过Citeseer网站获取计算机类文献。 本文的工作包括: 1.针对Citeseer网站的文献搜集和分析 在对互联网上的信息进行处理时,常常要将分布在互联网各处的Web页面下载到本地供进一步处理,因此本文设计网络爬虫,根据Citeseer网站中文献页面对应的链接具有的特定形式,将文献页面的Html源代码下载到本地数据库中;再根据文献页面显示样式所具有的特定规律进行分析,根据需要从中提取各类信息,分类存储到数据库各个表中,以供进一步研究使用。 2.基于内容和拓扑结构的文献质量评价 本文在Citeseer搜索的结果文献集的基础上,分别根据内容和拓扑结构对这些文献进行重新评价,根据评价结果对文献集进行重新排序,以找到感兴趣的文献。本文中基于内容的文献质量评价根据事先提供的好文献构造“语境图”找到各类样本,分类算法采用朴素贝叶斯理论;基于拓扑结构的文献质量评价采用PageRank算法进行。实验结果表明,这两种评价方法分别从主观和客观角度体现了文献的质量。 3.提出基于内容和拓扑结构相结合的知识决策系统框架 由于基于内容和拓扑结构的方法分别从主观和客观的角度评价文献质量,本文将这两种方法相结合提出一种应用于Citeseer文献搜索引擎的知识决策系统框架。具体表现为根据Citeseer搜索的结果文献集先用基于内容的方法提取出相关文献,再根据PageRank算法对这些文献从客观上进行排序。本文选取比较熟悉的两个领域进行实验,结果表明这种方法具有一定的效果。
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP393.092

【引证文献】
中国硕士学位论文全文数据库 前10条
1 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
2 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年
3 朱戈;基于图的科技文献相似性搜索关键技术研究[D];黑龙江大学;2011年
4 徐耀;基于Agent的智能化搜索引擎系统[D];北京化工大学;2006年
5 李广丽;垂直搜索引擎的研究与设计[D];华东交通大学;2008年
6 罗伟;基于移动Agent的主题搜索引擎研究[D];中南民族大学;2008年
7 岳舜;搜索引擎检索技术研究[D];西安电子科技大学;2008年
8 徐钊;基于链接结构的站点主题层次抽取方法[D];哈尔滨工业大学;2008年
9 赵联冠;分布式信息检索引擎的分析与实现[D];华东师范大学;2010年
10 林远;跨平台手机移动中间件的设计与实现[D];浙江工业大学;2012年
【参考文献】
中国期刊全文数据库 前4条
1 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
2 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期
3 曹军;Google的PageRank技术剖析[J];情报杂志;2002年10期
4 冯国臻 ,白硕 ,程学旗;异构数据统一检索技术研究与系统实现[J];微电子学与计算机;2001年05期
【共引文献】
中国期刊全文数据库 前10条
1 刘兴远,方顺兴,姚忠国;建筑结构试验数据处理的几种方法[J];四川建筑科学研究;1993年02期
2 张燕平;提取特征规则的重复覆盖算法(RCA)[J];安徽大学学报(自然科学版);2002年02期
3 高湘萍;吴小培;沈谦;;基于脑电的意识活动特征提取与识别[J];安徽大学学报(自然科学版);2006年02期
4 方群;;一种基于多线程的WEB/JXTA代理模型[J];安徽工程科技学院学报(自然科学版);2006年02期
5 吴凤凰;;模式识别在植物叶片识别中的应用[J];安徽农业科学;2007年01期
6 王继昌;庞祥武;;联机签名Bayes分类器设计算法[J];鞍山师范学院学报;2005年06期
7 胡煜;;偏最小二乘方法和二次判别分析方法应用于基因芯片数据分析[J];鞍山师范学院学报;2007年04期
8 岳昊;邵春福;赵熠;;基于BP神经网络的行人和自行车交通识别方法[J];北京交通大学学报;2008年03期
9 王树堂;基于径向基函数网络的故障诊断[J];兵工自动化;1997年03期
10 王新峰,邱静,刘冠军;基于绕封模型的故障特征选择方法研究[J];兵工学报;2005年05期
中国重要会议论文全文数据库 前10条
1 张银南;梅万龙;;基于Java的银行自助终端系统开发[A];促进企业信息化进程——第九届中国Java技术及应用交流大会文集[C];2006年
2 王永骥;王琬;;基于支持向量机的运动神经控制建模[A];第二十四届中国控制会议论文集(下册)[C];2005年
3 宋宇莹;;行星状星云的三维重建[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
4 钱志远;郁正庆;;最近邻VQ码本法方言识别研究[A];第二届全国人机语音通讯学术会议论文集[C];1992年
5 宿敬肖;;基于Java-Web开发的后台程序与界面分离技术[A];冶金企业自动化、信息化与创新——全国冶金自动化信息网建网30周年论文集[C];2007年
6 李爱新;孙铁;郭炎峰;;基于人工神经网络的脑电信号模式分类[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
7 纪萌;张子明;施远征;刘礼;;基于ARM9处理器的运动员训练数据视频采集系统的设计[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
8 孙浩军;刘志辉;孔令俊;;一种基于交叠率聚类的改进[A];2007'仪表,自动化及先进集成技术大会论文集(二)[C];2007年
9 梁柱锋;冯久超;;一种基于相轨迹提取算法的M进制混沌扩频通信方案[A];无线传感器网及网络信息处理技术——2006年通信理论与信号处理年会论文集[C];2006年
10 陆璐;张旭东;赵莹;高隽;;基于卷积神经网络的车牌照字符识别研究[A];第十二届全国图象图形学学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 李庆中;苹果自动分级中计算机视觉信息快速获取与处理技术的研究[D];中国农业大学;2000年
4 陈遵德;地震储层信息智能处理方法研究[D];成都理工学院;2001年
5 马恒太;基于Agent分布式入侵检测系统模型的建模及实践[D];中国科学院软件研究所;2001年
6 沈明霞;自主行走农业机器人视觉导航信息处理技术研究[D];南京农业大学;2001年
7 李剑;局部放电灰度图象识别特征提取与分形压缩方法的研究[D];重庆大学;2001年
8 郭大蕾;车辆悬架振动的神经网络半主动控制[D];南京航空航天大学;2002年
9 吴振锋;基于磨粒分析和信息融合的发动机磨损故障诊断技术研究[D];南京航空航天大学;2002年
10 王文陆;光学子波变换及其在图象处理中的应用[D];清华大学;1995年
中国硕士学位论文全文数据库 前10条
1 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
2 董慧欣;基于Web技术的投标文件自动生成系统的研究与实现[D];中国海洋大学;2008年
3 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
4 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
5 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
6 陈潇;油脂企业故障信息管理与诊断系统设计与实现[D];西安电子科技大学;2009年
7 陈志刚;网络Flash资源爬行器的设计与实现[D];山东师范大学;2011年
8 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
9 曹仲伟;FTP搜索引擎的关键技术研究[D];湖北工业大学;2011年
10 周源;基于本体的语义垂直搜索引擎研究[D];北京交通大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
2 李红梅;丁振国;周水生;周利华;;元搜索引擎结果合成算法[J];北京邮电大学学报;2008年05期
3 杨树林;;正则表达式在网络教学系统中的应用[J];北京印刷学院学报;2005年04期
4 郎凤举;;HTMLParser提取网页超链接研究[J];电脑编程技巧与维护;2010年02期
5 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期
6 张静;张妍;;正则表达式及其在信息抽取中的应用[J];电脑知识与技术;2009年15期
7 宫婷;;基于用户兴趣的元搜索引擎检索结果合成技术[J];电信快报;2009年07期
8 闫晓婷;宋佳;;AJAX中数据传输的新技术——JSON[J];福建电脑;2007年10期
9 唐壹勋;;正则表达式在批量新闻网页处理中的应用[J];福建电脑;2008年03期
10 姜策;李华峰;何颖;;正则表达式初探与应用[J];硅谷;2010年03期
中国博士学位论文全文数据库 前2条
1 刘怀亮;基于Web Services的网络化制造若干关键技术研究[D];西安电子科技大学;2003年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
2 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
3 李炎茗;元搜索引擎的现状研究与改进设计[D];华中师范大学;2002年
4 索金琳;基于桌面的特定领域meta-search系统的研究[D];河海大学;2002年
5 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
6 袁宏;基于移动Agent的中文信息搜索引擎系统模型的研究[D];沈阳工业大学;2003年
7 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
8 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
9 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
10 王亮;搜索引擎及其相关性排序研究[D];武汉大学;2004年
【二级引证文献】
中国期刊全文数据库 前2条
1 李广丽;刘觉夫;;垂直搜索引擎系统的研究与实现[J];情报杂志;2009年10期
2 张红斌;曹义亲;;混合多层分类和朴素贝叶斯模型的垂直搜索引擎分类器设计[J];现代图书情报技术;2011年03期
中国硕士学位论文全文数据库 前10条
1 郭世胜;基于Agent的搜索引擎的研究与实现[D];大连海事大学;2010年
2 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
3 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
4 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
5 徐小乐;搜索引擎个性化检索及用户推荐功能的设计与实现[D];重庆交通大学;2011年
6 张哲雨;山东圣翰财贸职业学院图书馆WEB系统的设计与实现[D];山东大学;2011年
7 赵志军;基于分布式的垂直搜索引擎的研究与实现[D];北京信息控制研究所;2011年
8 李兴芳;校园社区服务平台的设计与研究[D];河北农业大学;2012年
9 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
10 冯华威;基于Witness的集装箱码头物流系统Agent建模方法研究[D];武汉理工大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 杨炳儒,李岩,陈新中,王霞;Web结构挖掘[J];计算机工程;2003年20期
2 付真真;陆伟;;基于关键词的搜索引擎优化策略及效果分析[J];现代图书情报技术;2009年06期
3 张亚男;王鑫;;基于内容管理的网站构建系统的研究[J];硅谷;2010年23期
4 陈谦;;PageRank算法在孤立点检测中的应用[J];微型机与应用;2010年24期
5 李长玲;翟雪梅;;基于PageRank的引文分析方法探讨[J];情报理论与实践;2007年01期
6 张毅;张冬梅;;搜索引擎PageRank算法的比较与改进[J];科技创新导报;2008年21期
7 马海波;陈时勇;;基于网页等级的PageRank算法改进[J];大连交通大学学报;2010年02期
8 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期
9 张佳;梁少华;;Web结构挖掘与其基于超链接结构的算法[J];科技信息;2007年02期
10 潘大胜;;面向校园网搜索引擎的PageRank改进算法[J];湖南文理学院学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前10条
1 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
2 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 陈科;张斌;张心光;;基于功能和拓扑结构的机械设计过程管理[A];2008年安徽省科协年会机械工程分年会论文集[C];2008年
5 李良军;刘惠康;李莉;;高压变频器拓扑结构及其智能控制的研究[A];中国计量协会冶金分会2008年会论文集[C];2008年
6 李良军;刘惠康;李莉;;高压变频器拓扑结构及其智能控制的研究[A];2008全国第十三届自动化应用技术学术交流会论文集[C];2008年
7 李蕾;;列车通信网络拓扑结构及采用技术初探[A];中国铁道学会第三届标准计量委员会2008年学术交流报告会论文集[C];2008年
8 肖德琴;王景利;罗锡文;;大规模农田传感器网络拓扑结构设计[A];2007年中国农业工程学会学术年会论文摘要集[C];2007年
9 竺博;鄢志杰;胡郁;王仁华;;区分性参数重分配在HMM模型结构优化中的应用[A];第九届全国人机语音通讯学术会议论文集[C];2007年
10 王振利;曹茂永;靳凯;孔珊珊;;基于Harris算法的颅骨特征定位[A];第十三届全国图象图形学学术会议论文集[C];2006年
中国重要报纸全文数据库 前10条
1 黄橙;网络新行当能否一世风光?[N];科技日报;2009年
2 山枫;McAfee 用贝叶斯强化处理垃圾邮件[N];中国计算机报;2004年
3 ;神奇的贝叶斯邮件过滤器[N];网络世界;2003年
4 中科院计算所 罗杰文;P2P网络的拓扑结构[N];计算机世界;2006年
5 胡德荣;中德科学家联手分析蛋白质拓扑结构和功能[N];健康报;2006年
6 ;贝叶斯逻辑和过滤器[N];计算机世界;2006年
7 本报记者 马文方;匠心在胸[N];中国计算机报;2008年
8 ;用智慧战胜垃圾邮件[N];网络世界;2003年
9 ;蓝牙网络拓扑结构[N];人民邮电;2001年
10 喻宁;群雄逐鹿搜索经济[N];经理日报;2004年
中国博士学位论文全文数据库 前10条
1 罗桂兰;嵌入式互联网宏观拓扑结构及统计时间特征研究[D];东北大学;2009年
2 吴绍锋;Gauss-Bonnet-Chern定理的拓扑结构和高维纽结膜的φ映射拓扑场论[D];兰州大学;2006年
3 王菁华;文本中知识的获取[D];北京邮电大学;2008年
4 陈阿莲;新型多电平逆变器组合拓扑结构和多电平逆变器的容错技术[D];浙江大学;2005年
5 王毅;级联型多电平逆变器的新型拓扑结构与控制方法研究[D];华北电力大学(河北);2005年
6 顾华玺;直连网络关键技术的研究[D];西安电子科技大学;2005年
7 徐峰;互联网宏观拓扑结构中社团特征演化分析及应用[D];东北大学;2009年
8 王征;分布式互斥算法的研究与实现[D];电子科技大学;2007年
9 刘莹莹;柔性配体构筑的配位聚合物的合成、结构和性质研究[D];东北师范大学;2007年
10 锁小红;基于制造系统功能的设施布局设计研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前10条
1 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
2 姜玥旭;PageRank算法的改进及在生物网络数据上的应用[D];吉林大学;2012年
3 赵波;PageRank算法在非网页检索问题中的应用[D];复旦大学;2010年
4 刘先明;基于链接分析的PageRank排序算法的改进研究[D];湖北工业大学;2010年
5 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
6 田浩;基于PageRank值的文本相似度改进模型[D];湖北工业大学;2010年
7 县小平;搜索引擎PageRank算法研究[D];西北大学;2010年
8 郭庆宝;基于PageRank的搜索引擎优化方法研究[D];山东师范大学;2012年
9 高宝军;Web结构挖掘中PageRank算法优化研究[D];兰州大学;2011年
10 谢月;网页排序中PageRank算法和HITS算法的研究[D];电子科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026