收藏本站
《大连理工大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于向量空间模型的网页信息过滤方法研究

吴新涛  
【摘要】: 互联网的发展带动了整个社会的发展与变革,电子商务的兴起改变了人们的生活方式,给人们的生活带来了极大便利。但随着电子商务的快速发展,安全问题越来越突出。网络钓鱼等非法站点的存在及迷信、色情、暴力和反动信息的传播严重威胁电子商务环境的内容安全。因此,为了营造一个安全、健康及和谐的电子商务环境,对不良网络信息的过滤就显得非常重要。然而传统的基于关键字和URL的过滤技术,已不能有效地解决这些问题。 本文介绍了内容安全技术的现状,将基于内容分析的信息过滤方法用于互联网内容安全的保护;研究了信息过滤中的中文分词、文本表示和特征提取关键技术,在特征项权重计算方面,分析了HTML标记对权重计算的影响,在改进传统TFIDF方法的基础上,提出了一种基于HTML标记加权的权重计算方法。 为了提高网页信息过滤系统的准确性,本文还进行了网页正文内容抽取方法的研究,在分析了中文网页布局的特点和网页中中文标点符号的分布特征后,提出了一种新的网页正文抽取方法,该方法将中文标点符号数及非超链接文字数与超链接所含文字数的比值作为识别网页正文内容的重要特征。实验结果表明,该方法不仅通用性强,而且精确度高。 最后,本文提出了一种新的过滤方案并进行了设计和实现:采用二级过滤策略,将基于URL的过滤技术和内容过滤技术有机结合,仅对URL过滤后标记为可疑的用户请求进行内容过滤,并根据内容过滤的结果更新URL列表,从而实现了URL过滤的实时性和高效性及内容过滤的全面性。该网页信息过滤系统采用Winsock 2 SPI进行HTTP数据包的截获,采用本文新提出的网页正文抽取方法进行网页正文抽取,采用向量空间模型进行文本表示;实验结果表明,该系统具有良好的过滤准确度和性能。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前3条
1 余坦;个性化技术资料支持帮助系统的研究与实现[D];湖南大学;2009年
2 张明星;基于课程本体的语义检索研究及应用[D];重庆大学;2010年
3 丁兆贵;基于Lucene的个性化搜索引擎研究与实现[D];湖南大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
3 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
4 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
5 秦浩伟,步丰林;一个中文新词识别特征的研究[J];计算机工程;2004年S1期
6 王志琪;王永成;;HTML文件的文本信息预处理技术[J];计算机工程;2006年05期
7 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
8 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
9 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
10 宋睿华,马少平,陈刚,李景阳;一种提高中文搜索引擎检索质量的HTML解析方法[J];中文信息学报;2003年04期
【共引文献】
中国期刊全文数据库 前10条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
2 陈庆伟;;浅谈计算机网络的安全隐患问题与应对措施[J];信息安全与技术;2011年01期
3 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期
4 云晓燕;王春英;;基于最大树法的多文档文摘子主题划分[J];辽宁科技大学学报;2009年06期
5 王逢鑫;论象声词——英汉象声词语义比较[J];北京大学学报(英语语言文学专刊);1992年02期
6 王逢鑫;论感叹词——英汉感叹词语义比较[J];北京大学学报(外国语言文学专刊);1999年S1期
7 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
8 吴娜炯;;格语法在主观题自动阅卷中的应用[J];办公自动化;2010年08期
9 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
10 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
3 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
4 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
5 甘灿;孙星明;刘玉玲;向凌云;;一种改进的基于同义词替换的中文文本信息隐藏方法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
6 卢伟清;苏新春;;词义开放处理平台的研究和实现[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 何新;赵亚琴;周献中;;基于多层次支持向量机分类树的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 王晓松;复杂背景下树木图像提取研究[D];北京林业大学;2010年
4 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
5 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
6 俞凯;计算机书法若干关键技术研究[D];浙江大学;2010年
7 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
8 夏丁胤;互联网图像高效标注和解译的关键技术研究[D];浙江大学;2010年
9 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
10 许相莉;基于智能计算的图像检索算法研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 周雪梅;基于颜色和形状特征的图像检索技术研究[D];河南理工大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
5 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
6 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
7 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
8 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
9 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
10 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 汪翠红;;浅谈“个性化”搜索[J];电脑知识与技术(学术交流);2007年09期
3 李茉莉;基于Web信息检索技术研究[J];大学图书情报学刊;2003年03期
4 吴春艳;林柏钢;;超立方体互连网络一种简化自适应寻径算法研究[J];福建电脑;2006年11期
5 刘晓红;;搜索引擎技术及其发展趋势[J];广西医科大学学报;2008年S1期
6 李晓黎,周长胜;基于相关反馈技术的Web检索改进研究与实现[J];航空计算技术;2004年03期
7 孙颖;赵燕;;智能搜索引擎及其实现技术问题初探[J];海南师范大学学报(自然科学版);2008年04期
8 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
9 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
10 柯佳;程显毅;李晓薇;;面向用户的智能搜索引擎模型UOISE的研究[J];计算机工程与应用;2006年35期
中国硕士学位论文全文数据库 前10条
1 杨若望;基于本体的语义检索方法研究[D];北京邮电大学;2006年
2 杨晓淼;一种基于本体的语义检索模型[D];哈尔滨工程大学;2007年
3 廖军;基于领域本体的信息检索研究[D];中南大学;2007年
4 张功杰;基于本体的领域资源语义检索研究[D];暨南大学;2007年
5 张瑞;基于Lucene的中英文文档全文搜索引擎[D];电子科技大学;2008年
6 江娟;垂直搜索引擎数据分析技术的研究与实现[D];华北电力大学(北京);2008年
7 曹茂诚;基于本体的语义检索技术研究[D];山东轻工业学院;2008年
8 肖洪;面向知识组织与检索的SCORM语义化研究[D];北京大学;2006年
9 赵旭;搜索引擎关键技术研究及性能优化[D];江南大学;2008年
10 陈玲玲;基于本体的教育资源语义检索研究与实现[D];重庆大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前4条
1 张宗仁;基于自然语言理解的本体语义信息检索[D];暨南大学;2011年
2 李丹丹;基于本体的知识表示及信息检索研究[D];西南交通大学;2011年
3 李世清;基于《计算机组成原理》课程本体学习研究及实现[D];重庆大学;2011年
4 李倩倩;基于个性化知识搜索的E-learning系统的研究[D];湖北工业大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 张选芳;Internet网络安全的信息过滤模型分析[J];电子科技大学学报;2004年03期
2 黄晓斌,邱明辉;网络信息过滤方法的比较研究[J];大学图书馆学报;2005年01期
3 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
4 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
5 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
6 刘秉权,王晓龙,王宇颖;一种多知识源汉语语言模型的研究与实现[J];计算机研究与发展;2002年02期
7 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
8 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
9 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
10 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
【相似文献】
中国期刊全文数据库 前10条
1 崔虹燕;;面向主动信息服务的网络安全过滤技术研究[J];科技情报开发与经济;2008年05期
2 本刊编辑部;向有害信息与垃圾邮件宣战——网络信息时代的“内容安全”[J];计算机安全;2003年06期
3 张鹏;;网络内容安全遭遇成长难题[J];通信世界;2009年17期
4 罗柏胜;罗俊;;内容安全与网络安全的完美结合——中华卫士新一代安全网关[J];信息安全与通信保密;2008年05期
5 刘琦,李建华;网络内容安全监管系统的框架及其关键技术[J];计算机工程;2003年02期
6 黄琳琳;;领航内容安全 畅享安全蓝海——网康科技2006年渠道伙伴大会[J];计算机安全;2006年12期
7 ;保障内容安全 打造绿色校园[J];中国教育网络;2005年09期
8 王琨月;Patricia Sueltz;;内容安全渐成潮流——访SurfControl公司CEO Patricia Sueltz[J];每周电脑报;2006年14期
9 洪京;;关于信息安全的几点思考[J];陕西教育(理论版);2006年Z1期
10 ;内容安全专题[J];每周电脑报;2006年40期
中国重要会议论文全文数据库 前10条
1 ;第四届全国信息检索与内容安全学术会议(NCIRCS 2008)[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
2 ;第四届全国信息检索与内容安全学术会议(NCIRCS 2008)[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 胡春玲;;互联网内容安全及监管体制[A];第十八次全国计算机安全学术交流会论文集[C];2003年
4 李宝林;兰芸;赵云霞;李玲飞;;基于内容的Internet信息过滤方法研究综述[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
5 ;第二届全国信息检索与内容安全学术会议(NCIRCS-2005)组织情况[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 ;第一届全国信息检索与内容安全学术会议组织情况[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 ;第三届全国信息检索与内容安全学术会议(NCIRCS’2007)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 吴立德;黄萱菁;;前言[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 陈希;侯德文;朱祥玉;;基于强化学习的信息过滤模型[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
10 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 张琳;内容安全的蛋糕怎么吃?[N];网络世界;2006年
2 ;立足国内企业市场[N];计算机世界;2005年
3 本报记者 李敬;亿赛通:筑起移动互联网内容安全堡垒[N];计算机世界;2011年
4 陈彦卓;共享内容安全蓝海[N];中国电脑教育报;2006年
5 本报记者 张琳;内容安全谜局的中外解答[N];网络世界;2007年
6 ;内容安全再掀收购波澜[N];网络世界;2007年
7 ;SurfControl推出内容安全管理方案[N];人民邮电;2005年
8 房峻;内容安全市场增长势头强劲[N];黑龙江经济报;2007年
9 张戈;看好内容安全 网康科技进入3G时代[N];电脑商报;2006年
10 记者  徐华初;美讯智举行“内容安全与产品技术解决方案”交流会[N];中国保险报;2006年
中国博士学位论文全文数据库 前10条
1 陈伟;通信网内容安全集成系统研究[D];北京邮电大学;2006年
2 周斌;面向公众服务的电子政务研究[D];同济大学;2007年
3 张博锋;面向内容安全的文本分类研究[D];国防科学技术大学;2007年
4 张冬芳;3G网络的身份认证与内容安全关键技术研究[D];北京邮电大学;2010年
5 刘镔;视频隐蔽通信与内容安全的若干问题[D];解放军信息工程大学;2008年
6 张斌;基于感知哈希与数字水印图像内容认证技术研究[D];北京邮电大学;2011年
7 程明智;电子商务环境中信息快速加密及内容安全管理相关技术研究[D];北京邮电大学;2010年
8 王春元;公共网络信息系统安全管理的研究[D];合肥工业大学;2009年
9 周子力;基于WordNet的本体构建及其在安全领域应用关键技术研究[D];华东师范大学;2009年
10 张志勇;数字版权管理中的安全策略分析与选取[D];西安电子科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
2 党红云;基于数据挖掘的智能信息过滤系统的设计与实现[D];广西师范大学;2012年
3 赖静;非法互联网网站及服务实时监管取证系统[D];四川大学;2004年
4 彭浩林;基于内容的敏感信息过滤系统研究[D];武汉科技大学;2011年
5 苏威;基于Web不良信息过滤系统的研究[D];电子科技大学;2012年
6 邱烨;文本特征选择在网络信息过滤系统中的应用研究[D];山东师范大学;2010年
7 李欣;基于校园网的网络信息过滤系统的设计与实现[D];山东师范大学;2011年
8 熊毅;基于ontology的内容安全技术研究与实现[D];电子科技大学;2004年
9 赵丽娜;模糊遗传算法及其在网络信息过滤系统中的应用研究[D];山东师范大学;2010年
10 王开选;用户模型的结构表示及其应用研究[D];山西大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026