收藏本站
《北京邮电大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于新型坐标树的页面分析和内容提取框架

刘飚  
【摘要】:随着互联网的发展和动态网页生成技术的成熟,网页的数量呈爆炸性的增长。而为了商业上的考虑和网站的维护,很多网页都充斥着很多重复性高且与网页主题内容无关的信息。例如:广告、表单和版权声明等。这些内容充斥在每个网页但是却多半不是使用者想要的信息。而目前一般的搜索引擎无法辨别这些不相关的部分,便索引网页所有部分,这不但会使得索引档案巨大而不易管理,也会使搜索结果产生偏差。另外,当使用者利用小型显示装置,如:掌上电脑(PDA),手机等,浏览网页时,也必须经过多次的滚动页面和找寻才能得到想要的信息。所以,在论文中我们提出了一种网页结构分析和内容提取系统来获得网页中真正有信息的部分,以提高基于网页内容的应用系统的服务质量。 针对HTML的半结构化特征和DOM缺乏位置信息和空间关系描述的不足,本文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的页面坐标树模型,还包括能反映空间关系的Graph模型。通过将HTML文档转换为坐标树,并结合位置特征和空间关系可对网页进行分析和提取内容。 对来自120个网站的5000个网页进行测试后的结果表明该方法可达到93.87%的准确率,并且对相关连接和相关图片的抽取有较高的准确率和召回率。这表明我们的方法可以很有效的提取出网页的主题内容,这对基于网页内容的应用系统和基于网页超链指向的应用系统都有很大帮助。 在本文的最后我们提出了一种基于决策支持向量机的网页自动分类系统,并将我们的主题内容提取方法应用到该系统,实验表明主题提取提高了原有系统的正确率和召回率。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前5条
1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
2 张波 ,王继成 ,王强 ,张福炎;Web图像清洗技术的研究与实现[J];计算机研究与发展;2002年11期
3 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
4 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
5 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
4 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
5 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
6 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
7 李永森;潘若愚;李传军;;公共设施选址优化研究[J];安徽建筑工业学院学报(自然科学版);2009年06期
8 李红梅;贺小扬;王雪冬;;粗糙集理论在农业知识发现中的应用研究[J];安徽农业科学;2008年06期
9 唐超礼;魏圆圆;;基于数据挖掘的植保预测系统[J];安徽农业科学;2008年12期
10 耿焕同,陈少军;一种基于传统VSM和词共现概念的中文文本聚类的研究[J];安徽师范大学学报(自然科学版);2005年01期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
3 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
4 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
5 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
6 韦艳艳;李陶深;;基于Stacking框架的学习机制研究[A];广西计算机学会2004年学术年会论文集[C];2004年
7 令狐大智;李陶深;;一种面向混合数据的自反馈模糊聚类分析算法[A];广西计算机学会2007年年会论文集[C];2007年
8 姚正;;关于决策树分类模型的评分函数研究[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
9 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
3 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
4 戴小鹏;知识网格及其在农业生物灾害预警中关键技术研究[D];湖南农业大学;2010年
5 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
6 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
7 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
8 陈进杰;城市轨道交通项目广义全寿命周期成本理论与应用研究[D];北京交通大学;2011年
9 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
10 叶小飞;基于自发呈报系统与循证医学的药品不良反应信号挖掘[D];第二军医大学;2011年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
4 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
5 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
6 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
7 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
8 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
9 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
10 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
【二级参考文献】
中国期刊全文数据库 前8条
1 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
2 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
3 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
4 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
5 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
6 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
7 高军 ,王腾蛟 ,杨冬青 ,唐世渭;基于Ontology的Web内容二阶段半自动提取方法[J];计算机学报;2004年03期
8 宋睿华,马少平,陈刚,李景阳;一种提高中文搜索引擎检索质量的HTML解析方法[J];中文信息学报;2003年04期
【相似文献】
中国期刊全文数据库 前10条
1 林昌平;郑皎凌;;基于DOM规范的网页分析技术研究[J];成都信息工程学院学报;2007年S1期
2 李璞;周贤亚;;用Excel自动填写网页表单[J];电脑编程技巧与维护;2008年11期
3 李卫东;;基于DOM的半结构化网页信息抽取算法[J];河北省科学院学报;2009年01期
4 付涛;;基于DOM和显示属性的网页信息除噪技术研究[J];商丘师范学院学报;2010年09期
5 杨俊;李志蜀;;基于DOM的WEB主题信息抽取[J];四川大学学报(自然科学版);2008年05期
6 陈诗松;陈蜀宇;;基于WindowsCE的嵌入式浏览器的设计[J];计算机系统应用;2008年03期
7 何成万,闵华清;一个基于Java和XML的Web应用软件开发模型研究[J];计算机应用;2001年S1期
8 李勇军,冀汶莉,马光思;用DOM解析XML文档[J];计算机应用;2001年S1期
9 杨鑫阁,冯岩,宋晓燕,刘文捷,王慧强;XML技术在J2EE中的应用[J];自动化技术与应用;2001年05期
10 陈庆章,胡同森;以XML文件为例实现在CORBA结构下对异质性数据的访问[J];计算机工程;2002年01期
中国重要会议论文全文数据库 前10条
1 刘飚;刘艳敏;封化民;方勇;宋国森;;基于新型坐标树的页面分析和内容提取方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 Aymara Fernandez;;Complexation of Arsenite with Humic Acid in the Presence of Ferric Iron[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
3 封盛;张铭;;基于DOM树的半指导科技文献元数据自动抽取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
4 周巍;孙冰;战立明;吕建华;王国仁;于戈;;基于DOM模型的XML查询处理器的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
6 王彦敏;卢刚;;基于PixelGrid实现DOM的快速更新[A];地理信息与物联网论坛暨江苏省测绘学会2010年学术年会论文集[C];2010年
7 周亚男;张思玉;陈景文;;DOM敏化抗抑郁药安非它酮间接光解机制研究[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
8 邱鹍;封化民;宋国森;;基于启发式规则的多媒体主题信息挖掘[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
9 黄国城;孟凡刚;周忠波;李建;黄励晖;;河水DOM的生物转化机制研究[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
10 刘叶;蔡美芳;乔显亮;;畜禽粪便来源DOM对土壤吸附土霉素的影响[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
中国重要报纸全文数据库 前10条
1 本报记者  朱薇;抄袭网页基本布局风格也侵权[N];经济参考报;2006年
2 朱薇;重庆:抄袭网页基本布局风格,也是侵权[N];新华每日电讯;2006年
3 ;美国开发出网页标注新技术[N];人民邮电;2006年
4 本报记者  陆琼琼;Mofile试验播客类网站盈利新途径[N];上海证券报;2006年
5 山东 姜元学;用IE保存网页内容[N];电脑报;2002年
6 ;如何将网页保存下来?[N];南京日报;2006年
7 重庆 超人;网页版块也可上下移动[N];电脑报;2008年
8 记者 向杰;微软最新IE Dom Oday漏洞曝光[N];科技日报;2010年
9 张琰珺;网页监测应该“动”起来[N];中国计算机报;2006年
10 实习生 马霞;无障碍阅读系统:让互联网不再有“盲区”[N];科技日报;2011年
中国博士学位论文全文数据库 前10条
1 张玉涛;光照和DOM对水体中汞转化的影响机制及动力学研究[D];西南大学;2011年
2 周国华;生产作业调度问题的软计算方法研究[D];西南交通大学;2003年
3 张宝;粒子群算法及其在卫星舱布局中的应用研究[D];大连理工大学;2007年
4 史彬;流程工业间歇生产调度中并行列队竞争算法的应用研究[D];武汉理工大学;2010年
5 周斌;河水漫溢对荒漠河岸林植被及土壤的影响[D];新疆大学;2011年
6 李光荣;面向虚拟企业的零件工艺信息系统关键技术研究[D];南京理工大学;2005年
7 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
8 罗春鹏;炼油企业生产调度研究[D];浙江大学;2008年
9 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
10 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘艳敏;Web内容抽取及语义识别算法研究[D];燕山大学;2006年
2 刘飚;基于新型坐标树的页面分析和内容提取框架[D];北京邮电大学;2006年
3 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
4 张文;一种新型原生XML数据库——MyNXD的设计与实现[D];华东师范大学;2006年
5 李娟娟;用三维荧光技术研究DOM在人工湿地中的降解及其与染料的结合作用[D];西南大学;2011年
6 岳珂;基于自动机的嵌入式HTML解析器的设计与实现[D];重庆大学;2008年
7 王鑫;基于线特征的DOM与DLG配准方法的研究[D];武汉大学;2005年
8 赵静;基于XML和多层结构理论的营养咨询系统的设计与实现[D];山东大学;2005年
9 姚跃;中职信息技术技能考核系统设计与实现[D];湖南师范大学;2007年
10 石倩;Web信息抽取规则及其学习算法[D];大连海事大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026