收藏本站
《山东大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

校园网中课件资源的爬取与检索

孟祥雨  
【摘要】: 伴随着人类科技的不断的进步,互联网已经成为人们获取信息增强联系的一个极为重要的方面。在信息增长速度惊人的今天,怎样从如此巨大的信息量中能够快速准确的获取我们需要的信息,于是互联网搜索引擎就作为行之有效的信息检索工具,切合人们的需要而诞生,而web搜索引擎技术,也成为计算机科学界和信息产业界一个热点。 在校园网的建设中,出于教学的需要,同时也是校园网特色的体现,对于网络上优秀课件的检索可以更好的为老师和学生提供教学和学习上的方便。课件是根据教学大纲的要求,经过教学目标确定,教学内容和任务分析,教学活动结构及界面设计等环节,而加以制作的课程软件。它与课程内容有着直接联系。现在应用最广泛的多媒体课件形式是PPT,除此之外还有以DOC,PDF等格式保存在网络之中的课件,传统的搜索在信息获取的准确度和内容分析等方面存在着较为明显的缺陷,所以,如何更全面、更准确地获取网络之中的课件已经成为现在搜索领域的一个新课题新方向,也充满了挑战和机遇。 作为一个比较新兴的方向,同时也存在着很多的实际问题,比如在网络上课件在保存的形式以及保存格式上的不统一不规范,分类的不明确等等。本文将实现一个在校园网内的对课件进行定向爬取,有着良好的结构化索引,并具有较高的检索准确率的课件检索系统,从而满足校园网搜索引擎的需要。 本文在研究Web搜索引擎的基本原理、核心技术和处理流程的基础上,结合对校园网课件搜索引擎具体需求的分析,搭建了山东大学校园网课件搜索引擎系统。 本文详细说明了该课件搜索引擎系统的开发过程和方法,并对搜索引擎的内部软件组织和数据结构、数据存储方法等内容都进行研究、分析和设计。本文还介绍了插件机制,在网络爬虫方面,利用到了定向的页面爬取,通过对爬取到课件相关网页进行信息的抽取建立多field的信息索引,从而用户可以通过多条件结构化查询方式来检索,并通过合适的相关性算法以及网页重要度的计算方法,计算出网页重要度,以对检索结果进行排序。借助了JAvA的索引软件包lucene作为底层来实现,利用eclipse来完成这一系统。
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前7条
1 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
2 孟涛;王继民;闫宏飞;;网页变化与增量搜集技术[J];软件学报;2006年05期
3 胡骏;李星;;校园网信息资源搜索引擎的研究与实现[J];计算机工程与设计;2006年24期
4 郭辉,苏中义,王文 ,崔骏;一种改进的MM分词算法[J];微型电脑应用;2002年01期
5 霍艳蓉;Web信息检索的关键技术[J];现代图书情报技术;2002年06期
6 王香莲;Google和百度两种搜索引擎比较研究[J];现代图书情报技术;2004年08期
7 杨杰,徐炜民;搜索引擎原型系统的研究与设计[J];小型微型计算机系统;2002年10期
【共引文献】
中国期刊全文数据库 前10条
1 潘大胜;;面向校园网搜索引擎的PageRank改进算法[J];湖南文理学院学报(自然科学版);2009年01期
2 陈晓柱;曾莹;;自动分词在智能答疑系统中的作用[J];电脑知识与技术(学术交流);2007年11期
3 赵远东;陈康;陈建华;;基于全文检索的Segmenter分词算法改进[J];电脑知识与技术;2009年01期
4 吴静,蔡砥,王铮;地理信息系统中自然语言查询的分词处理与应用[J];地球信息科学;2005年03期
5 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
6 刘辉林;孟莉;杨松波;王光兴;;专业搜索引擎数据更新的算法P~2FC[J];广西师范大学学报(自然科学版);2007年02期
7 郭涛;黄铭钧;;社区网络爬虫的设计与实现[J];智能计算机与应用;2012年04期
8 孙志;张莉;;中小型校园网全文搜索引擎的研究与实现[J];电子世界;2012年19期
9 崔虹燕;;一种改进的基于词频统计的中文分词算法研究[J];信息技术;2008年04期
10 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
中国重要会议论文全文数据库 前1条
1 杜言琦;马军;;基于版块的论坛增量搜集策略[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前7条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
4 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
5 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
6 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
7 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
中国硕士学位论文全文数据库 前10条
1 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
2 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
3 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
4 杨克特;面向中医药的多元语义搜索引擎[D];浙江大学;2010年
5 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
6 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
7 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
8 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
9 杨华;网络信息动态采集策略的研究及应用[D];河北科技大学;2011年
10 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 闫宏飞,李晓明;关于中国Web的大小、形状和结构[J];计算机研究与发展;2002年08期
2 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
3 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
4 邓伟,张志伟,谭庆平,宁洪;一种新型的智能搜索引擎[J];计算机工程;2000年03期
5 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
6 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
7 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
8 郭万召;网络搜索引擎的分析与比较研究[J];情报科学;2000年01期
9 陈继红,青晓;四种搜索引擎的比较研究[J];情报科学;2003年10期
10 郭祥昊,钟义信,杨丽;基于两字词簇的汉语快速自动分词算法[J];情报学报;1998年05期
【相似文献】
中国期刊全文数据库 前10条
1 林祖藻;结构化综合布线与图书馆自动化系统布线概说[J];国家图书馆学刊;1996年02期
2 徐寿曾;结构化布线导则和组网的基本要求[J];电信工程技术与标准化;1997年03期
3 周元芳;结构化及面向对象的程序设计方法在PLC编程中的应用[J];浙江工业大学学报;2003年03期
4 胡敏芳;;电子病历在复旦大学附属肿瘤医院的应用[J];微型电脑应用;2005年12期
5 何钰;;FPGA应用触角延伸,走向平台化[J];电子产品世界;2006年05期
6 钱慧英;汪觉民;王子健;;电子病历的集成及应用[J];中国数字医学;2007年01期
7 李蓬;黄河;;基于P2P网络的信息检索技术研究[J];消费导刊;2008年17期
8 傅鹤岗;陈滢;;基于椭圆曲线的结构化多重数字签名算法[J];计算机应用;2009年01期
9 刘若中;;基于纯XML数据库和HL7的结构化电子病历研究与应用[J];医学信息学杂志;2009年09期
10 张晓东;;结构化BASIC——COMAL80语言[J];计算机科学;1983年05期
中国重要会议论文全文数据库 前10条
1 张朝梅;;导管相关性血流感染防治研究进展[A];中华医学会急诊医学分会第十三次全国急诊医学学术年会大会论文集[C];2010年
2 刘芳;付鹏程;张建民;;沥青混凝土防渗面板的粘弹响应研究[A];中国土木工程学会第九届土力学及岩土工程学术会议论文集(下册)[C];2003年
3 祝淑贞;周福生;;5-HT与IBS发病的内在相关性[A];中国中西医结合学会第十五次全国消化系统疾病学术研讨会论文汇编[C];2003年
4 廖烈辉;;HIV相关性嗜酸性脓疱性毛囊炎1例[A];2008全国中西医结合皮肤性病学术会议论文汇编[C];2008年
5 高爽;王学梅;欧国成;;大肠息肉与胆囊息肉样病变相关性的超声评价[A];庆祝中国超声诊断50年暨第十届全国超声医学学术会议论文汇编[C];2008年
6 杨旭红;陈寒冰;;性相关性头痛一例报道[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
7 周德廉;胡崇明;程序;;产品结构参数化造型的研究和实现[A];华东五省振动工程学会第五届学术交流会论文集[C];2001年
8 尹静萍;赵健;;电子病案应用问题探讨[A];中华医院管理学会病案管理专业委员会第12届全国病案管理学术会议论文集[C];2003年
9 邱甜;邱鹏玲;陈天兰;孙道开;陈超;王艺;;生后6h床旁视频脑电图诊断围产期缺氧缺血性脑病的准确性和近期神经行为发育相关性的研究[A];中华医学会第十五次全国儿科学术大会论文汇编(上册)[C];2010年
10 熊亚波;;创新与激励并举 建设结构化的培训体系[A];科学发展观与劳动保障问题研究[C];2005年
中国重要报纸全文数据库 前10条
1 东方证券 黄栋;可分离转债 低成本结构化理财产品[N];常州日报;2007年
2 东方证券 黄栋;可分离转债:低成本的结构化产品[N];证券时报;2007年
3 本报记者 李锐;华宝信托结构化证券投资 信托产品向高端客户倾斜[N];上海证券报;2007年
4 国海证券 孙稳存;今年一季度CPI将保持高位[N];证券时报;2008年
5 张媛源;结构化融资带给银行四大利好[N];中华工商时报;2007年
6 徐国杰;结构化牛市仍是今年主要特征[N];中国证券报;2007年
7 杨磊;结构化分级打开基金产品创新空间[N];证券时报;2007年
8 本报记者  王小明;金融期交所秘密筹备 结构化理财模式启幕[N];21世纪经济报道;2006年
9 标准普尔中国区总裁 扈企平 博士;推进结构化融资一举数得[N];中国证券报;2006年
10 王睿;衍生产品助你A股获利[N];上海金融报;2007年
中国博士学位论文全文数据库 前10条
1 庞引明;基于结构化联接的XML查询模式匹配关键技术研究[D];复旦大学;2004年
2 曾庆烜;斑秃患者临床症状体征与中医证型相关性的研究[D];湖南中医学院;2003年
3 李伟;结构化P2P网络Churn问题研究[D];武汉大学;2012年
4 袁建新;科学理性与价值理性的结构关系研究[D];复旦大学;2004年
5 汪丹;肺胃相关理论对慢性阻塞性肺病病因病机研究的指导意义[D];广州中医药大学;2008年
6 余颖;城市结构化理论及其方法研究[D];重庆大学;2002年
7 李寿喜;中国上市公司会计信息与股票定价相关性的实证研究[D];复旦大学;2005年
8 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
9 牟建仁;心与衰老相关性的理论及实验研究[D];湖北中医学院;2005年
10 周毅;中国企业文化要素与绩效关系研究[D];暨南大学;2007年
中国硕士学位论文全文数据库 前10条
1 孟祥雨;校园网中课件资源的爬取与检索[D];山东大学;2008年
2 张少平;基于结构化自然语言的算法规约研究[D];江西师范大学;2003年
3 张卓;结构化电子病历的数据检索[D];华中科技大学;2005年
4 包彤;结构化分析方法与面向对象分析方法集成的研究[D];北京工业大学;2001年
5 岳新利;桃曲坡管理局灌溉信息系统的开发与研究[D];西安理工大学;2003年
6 陈天华;基于XML的结构化电子病历检索的研究[D];上海交通大学;2008年
7 曹军勇;足球基本技术结构化与定向化教学方法的实验研究[D];内蒙古师范大学;2005年
8 申飞驹;基于Web的电子病历系统分析与设计[D];苏州大学;2006年
9 许霞;民营上市公司资本结构与经营绩效的关系研究[D];江苏大学;2009年
10 吕月梅;结构化P2P系统的负载均衡策略的研究[D];北京邮电大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026