收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

多页面特殊网页文字提取与合并技术研究

刘典型  
【摘要】: 网页中的文字,包含的信息量大、易于复用、占用空间小,是网页种类信息中占绝对比例的信息形式,也是人们从网页提取的所有信息中最多的形式。目前,Web挖掘的研究正处于发展阶段,在普通网页的文字提取研究领域也已形成众多理论。 然而有一类网页,由于采用了脚本,导致网页在打开时执行脚本而使计算机软件系统受到恶意代码入侵,或打开后的网页文字受广告因素等影响而无法被正常浏览,或被脚本限制而使文字无法被复制提取。这类特殊网页的文本相对普通网页更有价值,特别是此类网页经常被网络犯罪份子利用来为他们的活动隐匿证据,网络监察部门进行网络犯罪的取证,必须采用一定的技术。 本文深入分析了网页脚本的编制及工作原理,采用运行期类型信息技术和扩展脚本技术从手工提取和自动提取两个角度提出了特殊网页文本的提取与合并方案,并解决了过滤干扰码问题。其主要工作为: 研究发现所有特殊网页的限制功能都来源于其源代码中的脚本,研究采用扩展脚本屏蔽其限制功能,将特殊网页普通化;网页中的干扰码都是在正文中插入的颜色为背景色的其他字符,研究扩展脚本限制干扰码发挥作用,达到过滤干扰码的目的;提出运行期类型信息技术,开发软件,绕过恶意脚本,并自动提取文本;研究多页面的相似性,通过记录第一页面的提取点和搜索链接地址,自动提取多页面文本进行合并;开发出软件模型,测试其对普通网页、特殊网页中的文字的自动提取能力和自动过滤干扰码的能力。 实验证明,论文提出的所有方法均能有效抵制对文本提取的限制,而基于RTTI技术的软件自动提取法是功能最强的方法。 文中对特殊网页的分析及其文本提取方法的研究,对网页信息挖掘技术研究和网络应用、网络监察具有重要的实际意义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨占胜;王立波;;网页中的下拉菜单[J];科技信息(科学教研);2007年22期
2 王秋;;校园网页设计[J];中国教育网络;2008年12期
3 王志会;;浅谈网页设计的认知因素[J];东方企业文化;2010年03期
4 杨振华,宋楚平,周建辉;视觉设计原理在网页设计中的运用[J];南通纺织职业技术学院学报;2004年04期
5 一号;;Dreamweaver必备网页设计技巧[J];网络与信息;2007年02期
6 任玉琢;陈键;赵建勋;;初探视觉搜索和网页设计的关系[J];艺术与设计(理论);2007年10期
7 阮渭平;;色彩在网页设计中的民族性研究[J];浙江工艺美术;2007年03期
8 刘佳;王倩;;网页设计中的色彩表现[J];美术大观;2007年11期
9 崔琦;;浅谈如何进行“DIV+CSS”教学[J];商场现代化;2009年19期
10 ;平面设计师生存手册(3) 机会风从网上来[J];电脑爱好者;2009年20期
11 王晓梅;;三载淬炼 一朝问鼎——记第五届全国ITAT大赛“Dreamweaver网页设计”项目特等奖获得者曾国锋[J];中等职业教育;2010年07期
12 钟月云;;《网页设计》课程教学研究与探讨——以福建工程学院软件学院为例[J];职业;2010年33期
13 杨少波;网页设计中的动态HTML应用技术[J];计算机时代;1999年02期
14 黄志军!430033湖北武汉,吴卫东!430033湖北武汉,赵皑!430033湖北武汉;开展网页设计竞赛 促进素质培养[J];海军院校教育;2000年03期
15 苏梅;网页设计与色彩心理学[J];企业经济;2002年07期
16 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
17 段新宇;;浅谈网页设计中的文字运用[J];赤峰学院学报(自然科学版);2007年01期
18 马玲;范晶;;网页设计课程实验环节的设计和研究[J];中国科技财富;2008年10期
19 许海;;中国传统水墨画在网页设计中的应用[J];艺海;2008年06期
20 涂杰;;视知觉在网页设计中的表现[J];艺海;2010年02期
中国重要会议论文全文数据库 前10条
1 王谨;;水墨风格在网页设计中的运用[A];城市文化与艺术审美[C];2008年
2 许文惠;;图书馆网站及网页设计初探[A];图书馆理论与实践[C];2002年
3 孙宇航;;科技期刊网站的建设探讨[A];第4届中国科技期刊青年编辑学术研讨会论文集[C];2004年
4 姚秋明;甄莉;;基于NEWS油藏综合解释系统的网站建设[A];油气地球物理实用新技术——中国石化石油勘探开发研究院南京石油物探研究所2005年学术交流会论文集[C];2005年
5 杨孙超;;县级公共图书馆网站建设的思考[A];福建省图书馆学会2006年学术年会论文集[C];2006年
6 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
7 周坤;张军;刘正捷;;电子商务网站商品列表页的眼动研究[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
8 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
9 杜玉梅;杜习英;刘晓云;;中小企业网站建设方案[A];计算机模拟与信息技术会议论文集[C];2001年
10 余嵘华;;大学物理网上教学系统的安全设计[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
中国博士学位论文全文数据库 前10条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 张晓峰;基于条件随机场的目标提取[D];华东师范大学;2012年
3 赖布尔(Muhammad Nabeel Talib);语义支持的一种面向盲人使用者的电子商务语音浏览方法研究[D];华中科技大学;2011年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 王振;数字视频中文本的提取方法研究[D];中国海洋大学;2011年
6 张博;多视点商品本体学习研究[D];武汉理工大学;2010年
7 宋波;Web应用交互的建模和测试用例生成[D];上海大学;2010年
8 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
9 朱雷;我国医院网站医疗信息服务综合评价模型及实证研究[D];中南大学;2010年
10 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘典型;多页面特殊网页文字提取与合并技术研究[D];湖南大学;2010年
2 刘俊荣;基于行为识别的网页文本分类算法研究与实现[D];北京邮电大学;2010年
3 宋鳌;网页去噪在交互电视中的应用与研究[D];上海交通大学;2011年
4 彭聪;一种在移动网络环境下的网页排序算法的研究[D];湖南大学;2010年
5 任昌;基于多特征融合的网页对象自动定位技术研究[D];中北大学;2011年
6 刘阳;基于内容的搜索引擎网页去重研究[D];江苏大学;2010年
7 陈烨;面向用户体验的网页界面优化设计方法研究[D];重庆大学;2010年
8 董娟;基于页面结构分析的网页信息抽取方法研究[D];中国石油大学;2010年
9 宋玲;网页交互设计的视觉体验[D];西安美术学院;2010年
10 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年
中国重要报纸全文数据库 前10条
1 酷娱网设计部经理 王民;网页设计面试常见四陋习[N];电脑报;2010年
2 Relen;个性网页设计之内容艺术[N];电脑报;2001年
3 Relen;个性网页设计之创意无限[N];电脑报;2001年
4 河南 张金贵;网页设计布局心得[N];电脑报;2001年
5 西安市第十九中学 丁锦;网页设计中的色彩搭配[N];学知报;2011年
6 记者 薛亚芳;网络美工,动手能力最重要[N];人才市场报;2011年
7 吴兴国;网页设计的几项原则[N];山西科技报;2000年
8 实习生 郭晓;“我设计的软件是独一无二的”[N];科技日报;2006年
9 王楠;网页设计:网站的灵魂工程师[N];电脑报;2010年
10 商报记者 何衡柯;四大快递本土化瓶颈待破[N];北京商报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978