收藏本站
《中国海洋大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于热点网站内容分析的超链接提取研究

郎凤举  
【摘要】:互联网上的信息十分广泛,而这里面有许多是人们关心的热点信息,这些热点网站上的内容,代表了互联网信息最受关注的部分,本文的目的就是对NBA热点网站内容进行分析,解析其中的超链接以及对应的正文信息,然后再通过URL与正文反馈网站的热度。 本文首先介绍了网页信息提取技术概述及发展历史和现状,分析了网页信息提取技术分类和常用算法,对网页信息提取技术进行了相关阐述。其次,对热点网站页面内容特点进行了分析,主要包括热点网站及热点网站体育NBA特点、搜狐与网易NBA页面特点及比较、从网页语言特点分析热点网站、热点内容分析与内部关系等。通过对比,总结出NBA类热点网站内容的特点,而这些特点非常适合通过一些HTML解析器来分析处理。通过对比主流HTML解析器的特点,阐述了HTML Parser在解析热点网页上的优势,通过对热点网页采集的实现,进一步验证了网页的内部组成结构及其构成特点等,提出了一种基于HTML Parser的热点双反馈URL及正文提取策略:首先通过HTML Parser提取网页的URL,然后从URL中提取正文,通过提取的正文反馈URL的热度,再通过URL反馈整个网页的热度。 最后,本文实现了基于HTML Parser的网站超链接信息提取。论文中主要介绍了利用两种算法实现热点网站超链接及正文文本信息的提取。系统运行结果及有效性评价主要通过查询搜狐体育NBA和网易体育NBA提取的结果,测试准确率和召回率两个性能指标,比较两个热点网站的链接提取效果,并通过URL与正文信息反馈网站的热度。 本文正在研究的基于热点网站内容分析的超链接提取已经实现了对简单网页的解析,能够过滤掉一些垃圾信息、去除噪音,但对于是否能真正满足用户要求,提高解析出的有用信息的可操作性,还需要进一步去研究。
【学位授予单位】:中国海洋大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前10条
1 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
2 郎凤举;;HTMLParser提取网页超链接研究[J];电脑编程技巧与维护;2010年02期
3 李彦刚;魏海平;侯兴华;;基于HTMLParser的Web信息抽取系统的设计与实现[J];辽宁石油化工大学学报;2006年02期
4 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
5 朱炜;王超;李俊;潘金贵;;Web超链分析算法研究[J];计算机科学;2003年09期
6 张俊英;胡侠;卜佳俊;;网页文本信息自动提取技术综述[J];计算机应用研究;2009年08期
7 胡国平;张巍;王仁华;;基于双层决策的新闻网页正文精确抽取[J];中文信息学报;2006年06期
8 黄颖;黄治平;;HtmIParser提取网页信息的设计与实现[J];江西理工大学学报;2007年06期
9 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
10 李晓溪;王昇;;基于HTMLParser的HTML解析研究[J];网络财富;2009年08期
中国博士学位论文全文数据库 前2条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前7条
1 吴旭东;基于本体的可定制化网页信息智能提取技术研究[D];浙江大学;2006年
2 袁宇丽;基于HTML网页的Web信息提取研究[D];电子科技大学;2006年
3 马晋;基于分块特征抽取的大规模网页分类研究[D];吉林大学;2007年
4 程锦;面向网络化制造资源的垂直搜索技术研究与应用[D];贵州大学;2007年
5 王琳琳;基于HTML Parser的Web信息提取技术[D];北京邮电大学;2007年
6 董之茵;网页信息提取与净化的研究[D];吉林大学;2008年
7 王丽;基于Web的商品信息抽取与融合的研究与实现[D];武汉理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
2 李畅;王永良;冯晓洁;聂峰;;作战文书关键信息抽取方法[J];兵工自动化;2011年05期
3 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
4 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
5 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
6 赵江江;秦兵;;基于BootStrapping的中文事件元素抽取系统设计与实现[J];智能计算机与应用;2012年01期
7 郎凤举;;HTMLParser提取网页超链接研究[J];电脑编程技巧与维护;2010年02期
8 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
9 霍娜;吕国英;;基于规则匹配的灾难性追踪事件信息抽取的研究[J];电脑开发与应用;2012年06期
10 方莹,葛寒松;基于聚类的分级信息抽取方法初探[J];电脑知识与技术;2005年30期
中国重要会议论文全文数据库 前10条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
2 张二梅;刘辰;杨正球;;基于HTMLParser自动生成测试用例的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
5 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
6 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 张桂平;蔡东风;徐立军;尹宝生;陈建军;;以互联网为知识源的基于语段分析的交互式机器翻译技术的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
2 孙静宇;基于CBR的协同Web搜索研究[D];太原理工大学;2010年
3 朱航;基于多源遥感信息融合的作物营养状况监测与喷洒控制系统的研究[D];吉林大学;2011年
4 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
5 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
6 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
7 李桂东;复合材料构件热压罐成型工装设计关键技术研究[D];南京航空航天大学;2010年
8 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
9 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
10 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 陈晓慧;空间信息服务管理平台的设计与实现[D];山东科技大学;2010年
2 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
3 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
4 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
5 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
6 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
7 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
8 蒋子鹏;基于人机交互的英文动词聚类的研究[D];北京交通大学;2011年
9 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
10 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
4 钟义信;面向智能研究的全信息理论——纪念Shannon信息论50周年[J];北京邮电大学学报;1998年04期
5 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
6 王振雷,李鸿儒,顾树生;神经网络过学习问题的统计学分析及改进算法[J];东北大学学报;2001年04期
7 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
8 袁颖芬 ,张玥杰;英汉机译中未登录词的识别[J];电子技术;2004年02期
9 周锐,申功勋,房建成,祝世平;基于信息融合的目标图像跟踪[J];电子学报;1998年12期
10 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
中国博士学位论文全文数据库 前2条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前7条
1 葛泉波;多传感器数据融合及其在过程监控中的应用[D];河南大学;2005年
2 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
3 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
4 翟凤红;商品搜索引擎系统[D];吉林大学;2005年
5 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
6 蒲宇达;基于web的网页链接与正文抽取技术研究[D];哈尔滨工业大学;2006年
7 周桃云;数据融合理论及其在组合导航系统中的应用[D];西北工业大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 宋晶晶;;挑战Word[J];个人电脑;2008年06期
2 金永明;;新课程背景下的“零起点”问题——“信息集成(网站设计:超链接)”的教学案例剖析[J];中国信息技术教育;2009年14期
3 大胜;;清除下划线二法[J];家庭科技;2009年12期
4 刘德玲;朱克武;;超链接在VB编程中的实现及应用[J];计算机与现代化;2010年09期
5 牟连泳,崔美玉;利用FrontPage制作网页[J];微机发展;1999年05期
6 沧浪客;怎样让变小的IE还原?[J];计算机与网络;2002年15期
7 静悄悄;如何在一张图片上制作多个超级链接?[J];计算机与网络;2003年19期
8 史艳丽;网络学科资源导航库中的超链接研究[J];情报科学;2004年08期
9 侯秀峰;浅谈个人网站的建立[J];集宁师专学报;2004年03期
10 ;Office加油站[J];电脑迷;2006年20期
中国重要会议论文全文数据库 前10条
1 李建春;钟立国;;网上多媒体课件的制作技术初探[A];面向21世纪的图学教育——第十二届全国图学教育研讨会暨第三届制图CAI课件演示交流会论文集[C];2000年
2 郭新涛;梁敏;阮备军;朱扬勇;;挖掘Web日志降低信息搜寻的时间费用[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 霍红卫;江裕民;;改进Web结构挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
4 张宇宁;贺敬华;王勇;冯达;;多媒体教学手段在《电影艺术欣赏》课中的实施方法——大庆师范学院教学质量与教学改革工程项目《<电影艺术与欣赏>多媒体教学系统开发与研究》编号YGH024[A];高教科研2006(下册:专题研究)[C];2006年
5 刘悦;张刚;王斌;许洪波;;查询相关链接分析算法优化策略研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 牟昌运;;高中语文(新课改北京版)必修二第一单元第四课宋词五首[A];信息技术环境构建与教学应用[C];2009年
7 胡天文;陶杰;周庆芳;;电视手法与分镜头[A];信息技术环境构建与教学应用[C];2009年
8 徐万里;吴晓铃;;网络技术在润滑油选择上的应用[A];第五届设备管理第八届设备润滑与液压学术会议论文集——《设备管理设备润滑与液压技术》[C];2004年
9 袁毅桦;陈纯馨;陈忻;李咏峰;何志鹏;;有机化学网络教学资源设计与建设的研究[A];中国教育技术协会2004年年会论文集[C];2004年
10 朱雅静;;新课改与化繁为简的英语教学方式[A];中国当代教育理论文献——第四届中国教育家大会成果汇编(下)[C];2007年
中国重要报纸全文数据库 前10条
1 Softviva;简单的超链接变色[N];电脑报;2002年
2 LPL;利用getURL实现超链接[N];电脑报;2004年
3 福建 上海正午;取消自作聪明的超链接[N];电脑报;2003年
4 贵州 保戬;妙用超链接管理文档[N];中国电脑教育报;2004年
5 江学勇;超链接的合法性[N];检察日报;2000年
6 河南 杨丛刚;透过FrontPage XP品味超链接[N];电脑报;2001年
7 静悄悄;让一张图片包含多个超链接[N];电脑报;2003年
8 李艳 罗胜华;网络中不正当超链接行为的法律分析[N];人民法院报;2001年
9 ;我想有个家[N];电脑报;2004年
10 车立新;增强课件生命力[N];中国电脑教育报;2002年
中国博士学位论文全文数据库 前10条
1 刘悦;WWW上链接分析算法的若干研究[D];中国科学院研究生院(计算技术研究所);2004年
2 范欣;针对移动设备的跨媒体网络信息检索及自适应信息显示研究[D];中国科学技术大学;2007年
3 包胜华;基于Web的实体信息搜索与挖掘研究[D];上海交通大学;2008年
4 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
5 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
6 曾玉梅;公民社会与网络社会两种理论路径下网络社会交往的结构分析[D];武汉大学;2010年
7 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
8 汪梦;论网络诽谤的政府规制[D];中国社会科学院研究生院;2010年
9 尹文科;基于本体的视频服务网站监管技术研究[D];中国科学技术大学;2013年
10 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 宋钧;对世界著名公司主页中超链接部分的语言学分析[D];对外经济贸易大学;2000年
2 张巍;基于PageRank算法的搜索引擎优化策略研究[D];四川大学;2005年
3 朱金涛;基于超链接搜索策略网络爬行器的设计与实现[D];吉林大学;2007年
4 张泊平;基于网页结构相关性预取技术研究[D];郑州大学;2006年
5 蔡建超;基于PageRank算法的搜索引擎优化研究[D];江南大学;2008年
6 何拥军;基于链接结构的web权威资源挖掘算法研究[D];湖南大学;2005年
7 朱敬华;数字图书馆中查询结果处理和参考文献超链接方法的研究[D];黑龙江大学;2002年
8 李海;中小学教师E-LEARNING环境的构建[D];东北师范大学;2005年
9 杜光芹;效用驱动的主题Web挖掘算法研究[D];山东师范大学;2007年
10 朱珠;基于网页特征的中文网页自动分类问题研究[D];合肥工业大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026