收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于概念融合的网页筛选技术研究

陈洁  
【摘要】:随着网络的迅速发展,互联网在人们日常信息交流中占据越来越重要的地位,网页资源日益丰富,给用户获取信息带来便捷,但同时也带来一些对社会有害的敏感信息。为了给用户提供健康、安全的信息,就有必要对敏感网页进行筛选处理。网页内容安全筛选是通过智能分析网页内容,研究高效分类技术以达到准确筛选网页内容的目的,主流技术包括基于文本内容的网页筛选(TBIF)和基于图像内容的网页筛选(IBIF)。网页通常具有多模态特性,不仅包含图像信息还包含用来描述图像的文本信息,显然,要满足网页筛选的准确性和完整性,在技术设计方案上必须同时考虑两种模态信息的融合处理。融合处理过程中,网页内容特征表示的有效性,多模态数据之间的异构性以及筛选时判定数据所需满足的实时性,都是影响网页内容筛选精度和速度的重要因素。为了提高网页筛选的精度和速度,本文针对网页内容安全筛选中网页表示、异构特征融合、高性能内容筛选等关键问题进行了深入的研究,主要研究内容如下: 1)基于文本和图像概念融合的网页筛选框架 网页中通常包括文本和图像两种模态信息,利用单一模态信息表示网页,只能筛选部分敏感信息,因此,文本和图像融合处理是改善多模态网页内容筛选准确性的关键技术之一。同时,为了解决文本和图像在融合中所存在的异构性问题,提出基于文本和图像概念融合的网页筛选框架。 2)面向文本和图像概念空间的有意义串提取算法 特征准确描述是网页内容筛选的基础。有意义串表示网络中频繁使用、具有特定的新词和短语信息,可以用来优化文本描述模型。当前有意义串提取方法一般考虑单个词串的评定,缺乏考虑词串之间的相关性;同时,融合框架中文本和图像之间的异构性,也是在提取有意义串时需要考虑的一个重要因素。本文提出一种面向文本和图像概念空间的有意义串提取算法(Concept-based Meaningful Extraction, CME),采用聚类算法提取网页中文本和图像有意义串集合,可通过设置相同的聚类参数k,形成文本和图像统一描述的网页概念空间。实验表明,利用提取的有意义串集合形成的概念表示网页能大幅度优化向量空间模型,可以获得较高的分类性能。 3)基于高斯局部多核权重模型的多特征概念融合算法 特征融合是网页内容筛选准确性和完整性的重要保障,传统的特征融合方法没有考虑特征内部潜在的相关性以及特征之间的异构性。在研究一般多核理论基础上,提出了一种基于高斯局部多核权重模型的多特征概念融合算法(Multiple Feature Concept fusion based on Gaussian Local Multiple Kernel, MLMKL),在文本和图像统一概念空间描述上,充分考虑多个特征的局部信息,利用高斯模型模拟数据分布形成局部权重模型,为每个核空间中局部特征分配不同的权重。MLMKL方法有效解决了特征融合异构性问题以及一般多核中缺乏有效局部权重模型描述的问题。MLMKL与已有方法相比能综合提高网页筛选的准确性和测试速度。 4)基于最小圆覆盖区域划分的索引筛选算法 基于统计的模式分类方法是一种有效的内容筛选方法,该方法在小数据集的处理上具有较好的分类精度,但无法应对海量数据的实时处理。针对这个问题,索引技术被提出,通过数据划分构建索引,提高数据的查询速度。已有方法没有考虑内容安全筛选中实际的数据分布特性,构建的索引结构并不能满足筛选所需的实时性能。考虑到实际网络中正例(正常信息)多,反例(敏感信息)少的非平衡数据分布特性,提出一种基于最小圆覆盖区域划分的索引筛选算法(Minimum Enclosing Circle Index Filtering, MECI),引入图象学中最小圆覆盖理论进行数据区域划分,生成最大否定判定区域,构建适合内容安全筛选的高性能索引结构F-tree。F-tree使得需要判定的正例以最大概率落入否定区域,可以加快内容筛选的数据判定速度。 本文的研究工作在深入分析现有网页融合筛选技术不足的基础上,提出了一种基于文本和图像概念融合的网页筛选框架。通过深入研究网页特征表示、多模态信息的特征融合、高性能内容筛选几个关键技术,设计了有效的解决方案,有效提高了网页内容筛选的精度和速度,从而为多模态网页的管控提供了良好的技术基础,具有广阔的应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
2 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
3 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
4 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
5 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
6 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
7 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
8 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
9 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
10 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
11 xingyunMe;剪剪贴贴~好精彩——网页信息剪贴收集专家eNotebook[J];电脑校园;2003年11期
12 王少宇,杜娟,秦前清;基于内容的网页信息处理方法[J];计算机应用;2005年04期
13 周庆;;知识管理背景下网页信息档案化管理的思考[J];兰台世界;2011年15期
14 火善栋;;FORM表单反馈网页信息抽取的研究与实现[J];电脑知识与技术;2009年09期
15 丁艳;曹倩;王超;潘金贵;;基于Ontology和EM方法的网页分类研究[J];计算机科学;2003年11期
16 JACK;JONES;;搜索结果也能即指即看[J];电脑迷;2005年09期
17 何芷砚;;让更多的人从互联网获益——HBIS在网页信息无障碍领域的探索[J];互联网天地;2007年10期
18 小鲜;织网酷软——网页中不再有秘密[J];网络与信息;2004年12期
19 张健,欧红;应用正则式抽取Google网页内容[J];现代图书情报技术;2005年09期
20 温有奎;孙明;温浩;焦玉英;;基于Web的情报知识元挖掘与语义集成地图[J];情报学报;2008年02期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
8 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
9 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
6 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
7 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
8 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
9 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
10 单栋栋;搜索引擎中索引剪枝的研究[D];北京大学;2013年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
8 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
9 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
10 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978