收藏本站
《北方工业大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义的信息过滤算法及其应用

周文刚  
【摘要】: 在互联网提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环境的重要环节。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义,过滤效果难以满足智能化的要求。 本文结合计算语言学知识,提出并实现了基于语义的信息过滤算法。该算法包括对目标语句分词、词性标注、生成语义框架、计算两语句对应的语义框架间的相似度等关键环节。借助事先构建的词库,使用最大二分分词法,将句子切分成用二叉树表示的词集合;借助语法规则库和分词结果中存储的词性和词在句子中的位置信息,区分出关键字(主谓宾),填充语义框架;按照给定的距离函数和词语相似度计算规则,计算框架间的相似度;根据相似度是否大于阈值决定过滤与否。 此算法将两语句语义相似程度的比较操作转换成了数学计算,量化了语句间的语义相似度。试验表明,其过滤效果较传统算法在语义对应层次上有较大提高。 代理服务器在Intranet管理中具有重要作用。本文实现了HTTP代理服务器,借助它,在应用层实现了对Web页内容的语义过滤。并且,通过将客户机成功访问过的网页内容存储在代理服务器端,实现了Web页访问的内容重现。 为了提高过滤效率,本文依照分级过滤的思想,在网络层以下,采用NDIS和HOOK技术,实现对流经代理服务器的数据包进行按端口、协议等过滤;在应用层,基于HTTP代理技术,对包含Web页内容的应答数据包先进行关键字过滤,然后只对包含关键字的包进行基于语义的内容过滤,减轻了语义过滤的计算量。 本文介绍了一个具有基于语义过滤和内容重现功能的代理服务器(SemanticFR)的设计和实现。SemanticFR具有监控网络流量、网络层上包过滤、应用层上关键字过滤和语义过滤、基于URL、关键字的访问控制、网络访问内容重现等功能,系统运行稳定,达到了预期效果。
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP301.6

【相似文献】
中国期刊全文数据库 前10条
1 江岩;张文俊;赵锟;吴瑞敏;;运用多级对象语义框架的彩色图像分割[J];电视技术;2011年11期
2 王忠林;;基于多尺度句子信息的语义距离计算[J];计算机科学;2011年08期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 朱振方;刘培玉;;求解中文文本信息过滤的自适应遗传算法及收敛性分析[A];第六届全国信息检索学术会议论文集[C];2010年
2 林鸿飞;宋丹;杨志豪;;基于语义框架的话题跟踪方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 李千驹;唐兴全;林杏光;;论旨网格的描写和HNC句类表示的比较分析[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 余丽娜;曾东京;;框架语义学在双语网络词典编纂中的应用——从FrameNet看语义和语法标注[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
5 周领顺;;框架元素施事、致事、受事研究[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
6 贾改琴;唐晓嘉;;知道谓词逻辑系统 K_(S5)+K_(BF)[A];第二届海峡两岸逻辑教学学术会议专辑[C];2006年
7 杨文秀;陆常周;;用于虚拟技术的动态隐喻代理系统软件的探讨[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
8 赵园丁;由丽萍;张惠春;谷波;刘开瑛;;基于框架语义的汉语文本知识表示方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 刘学惠;;基于框架语义学的同义词辨析及其在词典编纂中的应用[A];第四届全国认知语言学研讨会论文摘要汇编[C];2006年
10 李月伦;李湘;常宝宝;袁毓林;;一种基于认知情景框架的文本分类方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前8条
1 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年
2 马洪海;汉语交易域框架语义系统研究[D];上海师范大学;2008年
3 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
4 张磊;汉英视觉动词语法化的认知研究[D];中央民族大学;2006年
5 孙元;多媒体语义检索关键问题研究[D];吉林大学;2010年
6 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
7 朱彦;汉语复合词语义构词法研究[D];华东师范大学;2003年
8 李广元;LTLC:面向实时与混成系统的连续时序逻辑[D];中国科学院软件研究所;2001年
中国硕士学位论文全文数据库 前10条
1 周文刚;基于语义的信息过滤算法及其应用[D];北方工业大学;2006年
2 刘天明;结果范畴的语义句法研究[D];东北师范大学;2003年
3 宋金花;受事主语句的句法语义研究[D];东北师范大学;2006年
4 邢宣宇;基于主题会话的语义分析工具的研制[D];湖南大学;2005年
5 许浩;现代汉语常用成语的语义构词框架分析[D];曲阜师范大学;2008年
6 张宇;英语辩词中语义框架转换研究[D];燕山大学;2010年
7 张俊宾;《诗经》复合词语义结构探析[D];重庆师范大学;2008年
8 宋丹;基于语义和链接的话题跟踪方法[D];大连理工大学;2007年
9 劳勍;现代汉语心理动词语义、句法研究[D];上海师范大学;2007年
10 郭伟华;P_1为非施受关系的动结式及其相关句式的句法语义研究[D];东北师范大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026