收藏本站
《北方工业大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

短文本语义过滤技术的研究

覃张华  
【摘要】: 随着互联网的迅速发展和广泛普及,人们越来越依赖互联网来查询所需要的信息。因为网络中大部分信息是以文本方式存放,因此人们对文本的过滤技术要求越来越高。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,不能根据文本的上下文较好地理解文本的语义进行过滤,因而过滤的效果难以满足人们智能化的要求。 本文主要结合中文信息处理知识,提出并实现了基于短文本的语义过滤算法。该算法包括对短文本分词,词性标注,句法分析,生成语义框架,计算短文本之间的语义框架相似度,短文本过滤等关键环节。利用基于多层隐马模型的分词方法对短文本进行分词,词性标注和消歧,分词和词性标注支持北大标准,973标准,XML格式。对短文本的句子进行句法分析,借助语法规则库和句法分析信息,提取出短文本的领域,行为主体,行为动词,行为受体,时间,地点等信息,填充语义框架,按照给定的距离函数和相似度计算规则,计算短文本之间的相似度,最后根据相似度是否大于阈值决定过滤与否。 此算法对短文本进行了准确度较高的分词和词性标注,并对短文本的句子进行了句法分析,句法分析充分考虑了短文本语义块的分离、句蜕和歧义等等特殊语境,然后提取语义框架,然后再将短文本之间的语义相似度的比较转换为数学计算,量化了短文本间的语义相似度,改进了框架相似度的计算公式,增加了框架相似度调节因子,最后根据相似度阈值进行过滤。试验表明,其过滤效果较传统的过滤算法在语义理解上有较大提高。 本文设计并实现了一个具有短文本语义过滤功能的代理服务器(SemanticFR)。该系统具有监控网络流量、网络层上包过滤、应用层上关键字过滤和语义过滤、基于URL、关键字的访问控制、网络访问内容重现等功能,系统运行稳定,达到了预期效果。
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 多杰卓玛;;藏语语义框架的理解与描述[J];西北民族大学学报(自然科学版);2009年02期
2 周文刚;孙挺;;Web页文本信息语义过滤系统设计与实现[J];周口师范学院学报;2007年02期
3 赵晓丽;;基于语义的典型网络病毒过滤系统研究[J];中国科技信息;2009年19期
4 周文刚;王景中;;基于语义的信息过滤算法的设计与实现[J];周口师范学院学报;2006年02期
5 王忠林;尹宝林;;基于同构的语义距离算法[J];山东师范大学学报(自然科学版);2008年03期
6 张玲达;金林;程秀霞;江飞;;一种基于内容的混合模式过滤模型[J];计算机工程;2008年24期
7 周文刚;马占欣;;基于代理的Web页访问语义过滤与内容重现[J];计算机技术与发展;2007年04期
8 卢志坚,张冬茉;中文问答系统中的问句理解[J];计算机工程;2004年18期
9 贾君枝;邰杨芳;;汉语框架网络问答系统的问句分析设计与实现[J];现代图书情报技术;2008年06期
10 利锦标;李童;刘璘;;基于类图语义框架的中文需求分析方法[J];电子学报;2011年S1期
中国重要会议论文全文数据库 前10条
1 林鸿飞;宋丹;杨志豪;;基于语义框架的话题跟踪方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 李千驹;唐兴全;林杏光;;论旨网格的描写和HNC句类表示的比较分析[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 余丽娜;曾东京;;框架语义学在双语网络词典编纂中的应用——从FrameNet看语义和语法标注[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
4 周领顺;;框架元素施事、致事、受事研究[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
5 贾改琴;唐晓嘉;;知道谓词逻辑系统 K_(S5)+K_(BF)[A];第二届海峡两岸逻辑教学学术会议专辑[C];2006年
6 杨文秀;陆常周;;用于虚拟技术的动态隐喻代理系统软件的探讨[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
7 赵园丁;由丽萍;张惠春;谷波;刘开瑛;;基于框架语义的汉语文本知识表示方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 刘学惠;;基于框架语义学的同义词辨析及其在词典编纂中的应用[A];第四届全国认知语言学研讨会论文摘要汇编[C];2006年
9 李月伦;李湘;常宝宝;袁毓林;;一种基于认知情景框架的文本分类方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 李安兴;;框架语义学、语料库建设与汉英词典新词的译名[A];2004年辞书与数字化研讨会论文集[C];2004年
中国博士学位论文全文数据库 前8条
1 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年
2 马洪海;汉语交易域框架语义系统研究[D];上海师范大学;2008年
3 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
4 张磊;汉英视觉动词语法化的认知研究[D];中央民族大学;2006年
5 孙元;多媒体语义检索关键问题研究[D];吉林大学;2010年
6 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
7 朱彦;汉语复合词语义构词法研究[D];华东师范大学;2003年
8 李广元;LTLC:面向实时与混成系统的连续时序逻辑[D];中国科学院软件研究所;2001年
中国硕士学位论文全文数据库 前10条
1 覃张华;短文本语义过滤技术的研究[D];北方工业大学;2008年
2 刘佳;面向微博的热点话题发现及跟踪[D];华南理工大学;2012年
3 刘天明;结果范畴的语义句法研究[D];东北师范大学;2003年
4 宋金花;受事主语句的句法语义研究[D];东北师范大学;2006年
5 邢宣宇;基于主题会话的语义分析工具的研制[D];湖南大学;2005年
6 许浩;现代汉语常用成语的语义构词框架分析[D];曲阜师范大学;2008年
7 张宇;英语辩词中语义框架转换研究[D];燕山大学;2010年
8 张俊宾;《诗经》复合词语义结构探析[D];重庆师范大学;2008年
9 宋丹;基于语义和链接的话题跟踪方法[D];大连理工大学;2007年
10 劳勍;现代汉语心理动词语义、句法研究[D];上海师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026