收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于DOM的网页净化方法研究

徐超  
【摘要】: Internet已经成为最重要的信息库。浏览Internet会看到网页中会包含大量和我们关心内容无关的导航条、广告信息、版权信息、以及调查问卷等。这些不相关的内容严重影响了Web信息挖掘的效果。网页净化技术致力于把混乱的网页内容清晰化、结构化、条理化,并清除不相关的内容。网页净化技术已经成为Web信息挖掘的关键技术。 介绍了网页净化的相关技术及其在Web信息挖掘中的重要作用,研究了目前流行的网页分割模型,分析了它们的优势和不足。根据目前商业网页的设计风格是“DIV加CSS”风格,并且网页设计师特意把逻辑相关的信息放到同一个DIV标签里并用样式表控制布局这样一个事实,提出了一种新的网页分割模型DSS_DOM。该模型识别出网页中的基本数据单元,并划分出整个网页的逻辑区域。研究了基于DSS_DOM模型的网页净化算法,该算法分析了网页噪音的特点,总结出一套评价准则,通过分配权重的方式判断出网页各个逻辑区域的重要性,识别出主题区域和噪音区域,达到了净化网页的目的。 利用开源项目Lucene对净化后的网页集建立了索引,在网页净化的基础上实现了搜索功能。实验证明DSS_DOM模型及其算法减少了Lucene的索引量,提高了Lucene的查准率。把DSS_DOM模型及其算法应用于CPCK中文网页分类器,在网页净化的基础上实现了中文网页自动分类。实验结果表明,DSS_DOM模型及其算法明确了各个网页的主题和类别,提高了网页分类的准确性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 程传鹏;;中文网页分类的研究与实现[J];中原工学院学报;2007年01期
2 李军杰;刘克胜;赵有才;;基于改进kNN算法的网页分类系统设计[J];网络安全技术与应用;2007年11期
3 张云雷;周军;刘海霞;;一种基于DOM的Web关键信息提取方法[J];现代计算机;2011年06期
4 杨鑫阁,冯岩,宋晓燕,刘文捷,王慧强;XML技术在J2EE中的应用[J];自动化技术与应用;2001年05期
5 孙荣胜,李志华,施明辉,徐天鹏;XML与汽车零部件信息采集系统的研究与实现[J];计算机应用;2002年02期
6 韩桂英,李锡祚;基于XML的网络课件标准化问题的研究与设计[J];微电子学与计算机;2002年11期
7 杨厚群;XML在ASP服务端的应用研究[J];计算机系统应用;2002年02期
8 卢方国,李卫华;使用SAX2分析XML文档[J];计算机与现代化;2003年09期
9 白连军,蒋式勤;XML在构建企业信息系统中的应用[J];微型电脑应用;2003年10期
10 孙霞,程宏斌;基于Java的DOM解析技术[J];计算机时代;2004年07期
11 李明杰;;特征抽取方法在网页分类中的应用[J];常熟理工学院学报;2005年04期
12 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期
13 齐宏卓;;浅谈网页模糊归类的应用[J];价值工程;2010年27期
14 蔚笑檀;如何用DHTML编制网页[J];铁路计算机应用;1998年05期
15 何成万,闵华清;一个基于Java和XML的Web应用软件开发模型研究[J];计算机应用;2001年S1期
16 李勇军,冀汶莉,马光思;用DOM解析XML文档[J];计算机应用;2001年S1期
17 陈庆章,胡同森;以XML文件为例实现在CORBA结构下对异质性数据的访问[J];计算机工程;2002年01期
18 郭瑞华;XML在虚拟图书馆中的应用及其处理技术[J];图书情报工作;2002年07期
19 李文武,金远平,童咪娜;半结构化数据到结构化数据的无损映射(英文)[J];Journal of Southeast University;2002年01期
20 熊光彩,莫 蓉,赵歆波,张定华;XML文档对象模型研究与应用[J];计算机工程与设计;2002年05期
中国重要会议论文全文数据库 前10条
1 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 Aymara Fernandez;;Complexation of Arsenite with Humic Acid in the Presence of Ferric Iron[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
3 封盛;张铭;;基于DOM树的半指导科技文献元数据自动抽取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
4 朱旭东;柯剑;那文武;许鲁;;一种数据块关系指导的缓存替换方法[A];第15届全国信息存储技术学术会议论文集[C];2008年
5 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
6 周巍;孙冰;战立明;吕建华;王国仁;于戈;;基于DOM模型的XML查询处理器的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 彭涛;左万利;赫枫龄;张长利;;基于粒子群优化算法的网页分类技术[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
8 王彦敏;卢刚;;基于PixelGrid实现DOM的快速更新[A];地理信息与物联网论坛暨江苏省测绘学会2010年学术年会论文集[C];2010年
9 程静;邱玉辉;;Web Mining中的网页分类[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
10 周亚男;张思玉;陈景文;;DOM敏化抗抑郁药安非它酮间接光解机制研究[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
中国博士学位论文全文数据库 前10条
1 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
2 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
3 张玉涛;光照和DOM对水体中汞转化的影响机制及动力学研究[D];西南大学;2011年
4 赵鑫;P2P流媒体内容分发的关键技术研究[D];北京邮电大学;2010年
5 涂旭平;对等流媒体直播系统带宽资源优化研究[D];华中科技大学;2008年
6 马冠骏;基于网络编码的P2P文件分发的研究[D];中国科学技术大学;2009年
7 周斌;河水漫溢对荒漠河岸林植被及土壤的影响[D];新疆大学;2011年
8 张慧杰;面向大数据集的地形模型多分辨率建模关键技术研究[D];吉林大学;2009年
9 徐奎;无线网络下的网络编码技术研究[D];华中科技大学;2009年
10 王见;异构节点的媒体分发系统研究[D];上海交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 徐超;基于DOM的网页净化方法研究[D];中国石油大学;2009年
2 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
3 张文;一种新型原生XML数据库——MyNXD的设计与实现[D];华东师范大学;2006年
4 李娟娟;用三维荧光技术研究DOM在人工湿地中的降解及其与染料的结合作用[D];西南大学;2011年
5 岳珂;基于自动机的嵌入式HTML解析器的设计与实现[D];重庆大学;2008年
6 王鑫;基于线特征的DOM与DLG配准方法的研究[D];武汉大学;2005年
7 孟瑜;基于Schema验证的XML解析器中解析子系统的设计与实现[D];西安电子科技大学;2005年
8 万倩;移动空间信息动态服务与分发研究[D];成都理工大学;2005年
9 赵静;基于XML和多层结构理论的营养咨询系统的设计与实现[D];山东大学;2005年
10 钟东;基于Web Service的电子病历整合技术研究[D];西北大学;2006年
中国重要报纸全文数据库 前10条
1 记者 向杰;微软最新IE Dom Oday漏洞曝光[N];科技日报;2010年
2 匡红庆 周朝晖;软件项目管理的质量保证[N];人民政协报;2005年
3 计算机世界实验室 韩勖;中小企业存储之道[N];计算机世界;2007年
4 美国飞康软件公司中国区技术总监 颜军;飞康:单实例存储实现快速恢复[N];中国计算机报;2007年
5 ;“不联网搜索”新概念[N];网络世界;2006年
6 李宏;存储与交换融合[N];中国计算机报;2001年
7 中国传媒大学计算机学院 朱立谷;重复数据删除技术解析[N];中国计算机报;2007年
8 汉帆(杭州)信息技术有限公司 杨洋;数据缩减:减少归档数据量[N];中国计算机报;2008年
9 中国贸促会;多米尼加汽车零备件销售分析[N];中国民族报;2001年
10 李琳琳 永杰;满足用户需求 FAN存储标准待统一[N];中国电子报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978