收藏本站
《北京交通大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于概念集合的网页内容过滤方法的研究

王阿婷  
【摘要】:由于Internet的普及和发展,人类社会进入了信息社会。互联网在人们的日常信息交流中占据着越来越重要的地位。网页的内容逐渐丰富,涉及的领域越来越广泛,同时网页的内容形式也更加多样化,比如文字、图像、视频、音频等。而最为普遍的形式当属文字内容,是网页内容的主要载体,因此随着计算机和互联网的推广和应用,由数据处理、信息处理到知识处理,对语言文字处理要求的深度和广度越来越高。正因为文字信息如此重要,所以网页文字信息中很有可能会加入一些敏感信息,给人们的生活、甚至社会带来危害。本文主要针对网页文字信息中的不良信息进行分析,深入研究过滤方法,达到对网络信息的安全过滤。 以往的网页过滤算法大多是以基于统计过滤或关键词过滤,这些过滤算法实现比较简单而且快速,但是也存在着不足,那就是:只是在字面意义上机械的理解网页内容,往往不能深入的了解,忽略了文本中的语义约束,无法有效识别带有语义倾向性的信息,最终导致过滤的效果并不理想。所以结果表明,如果要提高过滤算法的准确度,应该加入语义倾向性的判断,试图真正了解作者要表达的内容。 本文利用知网(HowNet)和分类算法提出了一种基于概念集合的网页过滤方法。针对互联网资源的丰富性和开放性的特点,首先对网络中收集的文本进行预处理工作,即分词以及词性的标注,为过滤做准备。然后按照本文提出的概念集合算法的步骤进行各个集合的相似度匹配。由于最能表达作者观点或意图的信息往往来自于动词或者形容词,同时否定词和副词也尤其重要,所以根据本文构造的情感词典对这些词再进行匹配和分类比较,最后判断是否为敏感信息,是否需要过滤。 最后对改进后的算法进行了验证,收集到政治、军事、娱乐等三个方面的信息进行计算和模板的匹配,实验的结果验证了改进后算法的可行性,证明了能够有效改善网页过滤的效果,对于敏感信息能起到一定程度上的检测效果,并对检测结果进行了分析。由于信息类别的不同,通常计算结果的查准率和召回率会有所不同。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前10条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 王建会,王洪伟,申展,胡运发;一种实用高效的文本分类算法[J];计算机研究与发展;2005年01期
3 晋耀红;基于语义的文本过滤系统的设计与实现[J];计算机工程与应用;2003年17期
4 朱艳辉;阳爱民;王平;;基于特征情感色彩的文档流派分类研究[J];计算机工程与应用;2007年04期
5 熊德兰;程菊明;田胜利;;基于HowNet的句子褒贬倾向性研究[J];计算机工程与应用;2008年22期
6 龚永恩;袁春风;武港山;;基于语义的词义消歧算法初探[J];计算机应用研究;2006年03期
7 徐琳宏;林鸿飞;赵晶;;情感语料库的构建和分析[J];中文信息学报;2008年01期
8 江敏;肖诗斌;王弘蔚;施水才;;一种改进的基于《知网》的词语语义相似度计算[J];中文信息学报;2008年05期
9 耿璐;聂足;;基于CMS的企业网站的设计与实现[J];计算机工程与设计;2009年02期
10 张明宝;马静;;一种基于知网的中文词义消歧算法[J];计算机技术与发展;2009年02期
【共引文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
3 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
4 赵欣欣;索红光;刘玉树;张利萍;;基于带权语义距离的网页预取方法[J];北京理工大学学报;2006年08期
5 明均仁;张帆;;网络文本信息过滤的意义及其模型初探[J];图书与情报;2007年04期
6 蒋溢;丁优;熊安萍;王化晶;;一种基于知网的词汇语义相似度改进计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
7 刘杨;陈晖;陈远江;;中文文本信息过滤技术研究[J];船电技术;2010年07期
8 伍莹;;基于“词群—词位变体”理论的现代汉语形容词语义网络构建——以“胖”类形容词为例[J];长江学术;2011年02期
9 高元梓;;基于CEF和WordNet的词汇拓展框架的构建[J];重庆文理学院学报(社会科学版);2010年03期
10 屈赟;杨捧;张文静;;基于信息粒度的主题相似性信息检索[J];河北农业大学学报;2011年01期
中国重要会议论文全文数据库 前10条
1 宋艳雪;张绍武;林鸿飞;;基于语境歧义词的句子情感倾向性分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李帅;王精业;王丽娟;;基于马尔可夫模型的文本信息提取算法概述[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
3 李玉良;王良松;李晶;;图像中数字字符识别技术概览[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
4 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 谭浩;陈应忠;李旭;;基于CMS的企业门户网站建立[A];中国公路学会计算机应用分会2010年学术年会论文集[C];2010年
6 陈慧清;林世平;;基于知网和模式自举的概念间分类关系获取方法[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
7 陈小荷;;属性分析说略[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 郝长伶;董强;;知网知识库描述语言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 周强;陈祖舜;梅立军;;情境描述的构建方法研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 袁兴宇;王挺;周会平;肖君;;以本体构造中文信息过滤中的需求模型[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
5 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
6 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
7 夏培勇;个性化推荐技术中的协同过滤算法研究[D];中国海洋大学;2011年
8 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
9 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
10 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
2 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
3 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
4 宋小波;基于Flex的内容管理系统(CMS)的设计与实现[D];湘潭大学;2010年
5 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
6 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
7 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年
8 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
9 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
10 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
2 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
3 杨尔弘,张国清,张永奎;基于义原同现频率的汉语词义排歧方法[J];计算机研究与发展;2001年07期
4 朱艳辉;阳爱民;王平;;基于特征情感色彩的文档流派分类研究[J];计算机工程与应用;2007年04期
5 吴健,吴朝晖,李莹,邓水光;基于本体论和词汇语义相似度的Web服务发现[J];计算机学报;2005年04期
6 谭立球,费耀平,李建华,高琰;多网站内容管理系统的设计和实现[J];计算机应用;2004年11期
7 刘军;基于Struts框架构建网站内容管理系统[J];科技情报开发与经济;2005年06期
8 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
9 应英,周锋,周昌乐;汉语情感意义的机器标注研究初探[J];中文信息学报;2002年02期
10 昝红英,苏玉梅,孙斌,俞士汶;名人网页的相关度评价[J];中文信息学报;2003年05期
中国硕士学位论文全文数据库 前1条
1 李国柱;基于内容管理的Web信息发布系统的设计与实现[D];苏州大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 钱智勇,张天俊,端木艺;师院图书馆网页内容的构思、组织与更新[J];情报探索;2001年02期
2 依然;;如何防范看不见的网页病毒[J];网络与信息;2007年05期
3 沈军;杨小佩;孙吉刚;;关于网页形式设计的几点思考[J];科教新报(教育科研);2010年38期
4 宋天福;;浅谈信息下载的方法[J];中小学电教;2005年12期
5 言川;;我的浏览器能截图[J];电脑迷;2006年06期
6 金莉丽;;使用Dreamweaver制作档案馆网页的步骤[J];兰台世界;2007年07期
7 钟旭红;;Scripts脚本语言在网页保护中的应用[J];黑龙江科技信息;2007年20期
8 吉昌;;解禁网页拷贝八大方案[J];电脑爱好者(普及版);2008年11期
9 李文锋;陈李霞;;浅谈Dreamweaver cs3中网页布局设计的方法[J];才智;2009年17期
10 小曹;陈东;;网络剪刀 剪出一片干净世界[J];电脑迷;2011年01期
中国重要会议论文全文数据库 前10条
1 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
2 高嵩;周强;;RefRank:一种基于内容引用的搜索引擎排序算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
4 江涛;于洪志;李刚;;基于藏文网页的网络舆情监控系统研究[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
5 刘菁菁;林鸿飞;;基于结构和链接扩展的中文网页分类研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
6 张建标;肖创柏;;网页内容实时监控审计系统的设计与实现[A];第十九次全国计算机安全学术交流会论文集[C];2004年
7 王鹏;张永奎;;基于新闻网页主题要素的网页去重方法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 张颖;;浅谈图书馆网站的建设[A];新环境下图书馆建设与发展——第六届中国社区和乡镇图书馆发展战略研讨会征文集(下册)[C];2007年
9 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
10 邱鹍;封化民;宋国森;;基于启发式规则的多媒体主题信息挖掘[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
中国重要报纸全文数据库 前10条
1 本报记者  朱薇;抄袭网页基本布局风格也侵权[N];经济参考报;2006年
2 朱薇;重庆:抄袭网页基本布局风格,也是侵权[N];新华每日电讯;2006年
3 ;美国开发出网页标注新技术[N];人民邮电;2006年
4 本报记者  陆琼琼;Mofile试验播客类网站盈利新途径[N];上海证券报;2006年
5 山东 姜元学;用IE保存网页内容[N];电脑报;2002年
6 ;如何将网页保存下来?[N];南京日报;2006年
7 重庆 超人;网页版块也可上下移动[N];电脑报;2008年
8 张琰珺;网页监测应该“动”起来[N];中国计算机报;2006年
9 实习生 马霞;无障碍阅读系统:让互联网不再有“盲区”[N];科技日报;2011年
10 王丹 曾好;有的放矢增强政治教育针对性[N];战士报;2007年
中国博士学位论文全文数据库 前4条
1 于瑞国;维数约减算法研究及其在大规模文本数据挖掘中的应用[D];天津大学;2008年
2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
3 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 周洪喜;基于人工标注技术的网页内容抽取系统开发[D];复旦大学;2010年
2 解姝;社会媒体网页内容分割与主题频繁簇的抽取[D];湘潭大学;2011年
3 张强;网页内容获取及基于意图的聚类[D];北京邮电大学;2010年
4 王亮;WEB内容监控的研究与实现[D];电子科技大学;2012年
5 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
6 苗苗;基于页面分块的网页内容提取的研究与实现[D];武汉理工大学;2010年
7 张钊;基于Web Services的ADSM的研究及其在网页内容认证中的应用[D];东北大学;2008年
8 罗林波;基于网页内容和链接的主题爬虫研究与实现[D];海南大学;2010年
9 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年
10 张海波;面向主题的网页过滤机制研究[D];兰州大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026