收藏本站
《大连海事大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

基于网络爬虫的网站信息采集技术研究

孙骏雄  
【摘要】:随着互联网的迅速普及发展,它已经逐渐融入人们日常生活的方方面面。其中Web是人们在互联网上互相沟通、获取外界信息的重要途径。作为一个很有价值的信息来源,Web凭借其直观便利的使用方式以及丰富的内容表达能力,可以为用户提供多种形式的信息,例如文本、音频、视频等。随着时间的推移,互联网的信息规模及其用户群体规模也在快速增长。互联网用户的需求正在变得越发多样化,如何为用户快速地提供其所感兴趣的信息是目前的一大难题。 如今自媒体已经在互联上逐渐开始兴起,并且其规模越来也庞大,其中不乏各行各业优秀代表人物,因而开始受到越来越多的关注。因此本文提出运用一定的技术手段实现对百度百家这一自媒体平台完成采集其站点内的文章内容。然后对所采集的文章内容进行重新组织,以利于对这些内容的二次利用。围绕这一目标,本文提出了基于网络爬虫的网站信息采集技术的整合方案的设计与实现。 本文提出的基于网络爬虫的网站信息采集技术的整合方案包括信息采集、信息抽取、信息检索这三部分。其中信息采集是基于Heritrix爬虫的扩展(结合HtmlUnit)所实现,负责完成对目标站点的网页采集;信息抽取是基于Jsoup和DOM技术所实现,负责完成从网页中抽取文章信息保存至数据库中,将非结构化信息转化成结构化信息;信息检索是基于Lucene索引工具以及SSH2架构所实现,负责向呈现所采集的文章信息,便于用户浏览。
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
2 王学辉;金丹;;Lucene与关系型数据库对比[J];电脑知识与技术(学术交流);2007年03期
3 苏华军;;基于Hibernate的JAVA对象持久化技术[J];电脑知识与技术;2008年29期
4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
5 蔺跟荣;;基于用户兴趣的个性化Web信息检索方法[J];电子设计工程;2010年07期
6 金岳富;范剑英;冯扬;;分布式Web信息采集系统的设计与实现[J];哈尔滨理工大学学报;2010年01期
7 胡启敏;薛锦云;钟林辉;;基于Spring框架的轻量级J2EE架构与应用[J];计算机工程与应用;2008年05期
8 顾韵华;田伟;;基于DOM模型扩展的Web信息提取[J];计算机科学;2009年11期
9 陈琼,苏文健;基于网页结构树的Web信息抽取方法[J];计算机工程;2005年20期
10 丁宝琼;谢远平;吴琼;;基于改进DOM树的网页去噪声方法[J];计算机应用;2009年S1期
中国博士学位论文全文数据库 前1条
1 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 宋健豪;赵刚;;基于启发式规则优化的网页元素提取方法[J];信息安全与技术;2012年06期
2 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
3 胡军伟;秦奕青;张伟;;正则表达式在Web信息抽取中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
4 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
5 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
6 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
7 李洋;孙永维;许冰;王英双;;基于Ajax,Struts,Hibernate和Spring的J2EE架构[J];吉林大学学报(信息科学版);2011年06期
8 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
9 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期
10 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;THE APPLICATION OF FULLl-TEXT INDEX WITH RULE LIBRATY IN INTEGRATED GEOGRAPHIC INFORMATION COLLECTION DATABASE ENGINE[A];《测绘通报》测绘科学前沿技术论坛摘要集[C];2008年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 闫其军;汪凌;沈秋艳;;基于Struts和Hibernate的电子商务系统的设计与实现[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
5 赵奇;杨正球;;基于Hibernate企业应用的数据库维护系统的设计[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
6 甘屹;张雪梅;;网络化制造中产品设计数据转换研究与应用[A];全国先进制造技术高层论坛暨第十届制造业自动化与信息化技术研讨会论文集[C];2011年
7 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
8 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
9 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
10 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
6 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
9 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
10 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 郭洪霖;基于J2EE的SOA架构在仓储服务领域的研究与设计[D];哈尔滨工程大学;2010年
4 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
5 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
6 李梦飞;基于Grails+Spring+Hibernate框架的水体溶解氧检测分析设计[D];安徽农业大学;2010年
7 许锦;基于本体的智能答疑系统研究与实现[D];江西师范大学;2010年
8 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
9 金焱;基于FSSH框架的研究与应用[D];大连海事大学;2010年
10 董英茹;基于NEO框架的教学文档管理平台的设计与实现[D];大连海事大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张魁麟,邵春福,王力劭;基于分布式并行算法的动态交通流分配研究[J];北方交通大学学报;2002年05期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 钟义信;面向智能研究的全信息理论——纪念Shannon信息论50周年[J];北京邮电大学学报;1998年04期
4 邓虎成,蔡淮,万畅;基于J2EE的数据通用性操作框架的研究与实现[J];成都信息工程学院学报;2005年02期
5 李卿;楼新远;;基于AJAX的数据分页的设计与实现[J];成都信息工程学院学报;2008年02期
6 冯艳为;王成良;;基于Web部件的个性化网站创建技术[J];重庆工学院学报(自然科学版);2008年02期
7 胡启敏,薛锦云,钟林辉;依赖注入技术及其执行过程的形式化描述[J];燕山大学学报;2005年04期
8 吴振慧;;Web信息抽取的研究[J];电脑知识与技术;2006年35期
9 杜成龙;龙绍军;;分布式系统开发优化策略[J];电脑知识与技术(学术交流);2007年18期
10 王晶;陈卫卫;;AJAX搜索引擎研究[J];电脑知识与技术;2009年19期
中国博士学位论文全文数据库 前2条
1 谢能付;基于语义Web技术的知识融合和同步方法研究[D];中国科学院研究生院(计算技术研究所);2006年
2 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
2 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
3 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
4 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
5 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
6 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
7 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
8 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
9 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
10 杨松梅;;网络爬虫[J];硅谷;2009年15期
中国重要会议论文全文数据库 前5条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
5 王庆广;何力;韩伟红;;基于爬虫的有害网站发现与判别系统的实现[A];第27次全国计算机安全学术交流会论文集[C];2012年
中国硕士学位论文全文数据库 前10条
1 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
2 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
3 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
4 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
5 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
6 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
7 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年
8 张红云;基于页面分析的主题网络爬虫的研究[D];武汉理工大学;2010年
9 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
10 杜一平;主题搜索网络爬虫的设计与研究[D];中国科学技术大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026