收藏本站
《电子科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

内容审计系统的研究与实现

刘齐  
【摘要】:随着互联网络的越来越普及,它所覆盖的范围也越来越大,而互联网络传播的信息量每天都在成倍的增长,信息内容也越来越多样化。为了能在数据量庞大,数据种类繁多,分析过程繁琐复杂的情况下,有效的根据用户的任务要求快捷准确的审计出有危害的信息,我们主要针对目前网络上危害性最大的政治、色情和暴力这三类文本,设计开发了有针对性的内容审计系统。 本文的主要研究内容包括以下五个方面: 1、采用层次分析的方法实现了对未知文本从主题分类到态度倾向性分析的过程。通过对有害信息的介绍,我们发现危害性最大的文本可以归结为三类:政治、色情和暴力;在主题分类的基础上再针对相应的文本进行倾向性分析无疑会缩小范围,提高分析的准确性。 2、针对主题分类的特点,本文在分析现有特征选择算法的基础上,设计了一个基于CHI-GA的组合特征选择算法,通过试验分析证实了它的有效性。 3、由于采用层次分析的方法,使得针对某一类文本而构造特定的领域极性词典成为了可能,由此可提高文本倾向性分析的准确性。在本系统中我们分别针对政治、色情和暴力这三类文本构建了不同的领域极性词典。 4、针对文本倾向性分析的特点和难点,本文结合现有的文本倾向性分析方法,提出了一种基于领域极性词的短语搭配识别方法,并利用识别出的倾向性短语作为特征训练SVM分类器,从而实现文本倾向性识别。试验结果证实取得了良好的效果。 5、针对用户要求审计的数据量庞大,数据种类繁多,分析量繁重的问题,我们采用了先进的分布式处理技术,设计了基于插件的C/S体系结构,使得系统的整体架构表现为客户端—服务器端—代理端—插件的层次结构。并在此基础上实现了能在大量文本中高效准确的识别出有害文本的内容审计系统。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 周敏;;案例推理技术在安全审计系统中的应用[J];微电子学与计算机;2007年03期
2 肖文辉;;基于MySQL的全文检索系统的研究与应用[J];广西质量监督导报;2008年06期
3 肖克曦;;在线英语语料库自动分词和分句的实现[J];电脑知识与技术;2010年28期
4 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
5 李胜军;审计系统中入侵检测技术的研究和发展[J];信息化建设;2003年11期
6 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
7 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
8 刘经纬;季振洲;王洁;;一个实用硬件防火墙日志审计系统的设计[J];哈尔滨商业大学学报(自然科学版);2007年04期
9 陈福生;;全文检索在网站搜索系统中的应用[J];电脑编程技巧与维护;2009年12期
10 徐九韵,仝兆岐,向逐聪,王新民;数据库汉语查询语言的分词研究与实现[J];中文信息学报;1998年04期
中国重要会议论文全文数据库 前10条
1 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
3 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 吴伟杰;范辉华;杨进;;基于RTX2009的消息监控与审计系统实现[A];2010年MIS/S&A学术交流会议论文集(中国造船工程学会学术论文集)[C];2010年
5 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 周俊;孙啸;;频繁序列算法在生物信息挖掘中的应用[A];第十次中国生物物理学术大会论文摘要集[C];2006年
9 苏新春;顾江萍;;“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考[A];中国辞书论集2000[C];2000年
10 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 记者 齐玄江 通讯员 于洁;财政审计联手打造“透明财政”[N];中国财经报;2005年
2 记者 牟小强;我市审计系统召开党风廉政建设会议[N];长治日报;2006年
3 本报通讯员;不懈的追求[N];中国审计报;2007年
4 实习记者 陈昕;地区审计系统不断强化监督 提高服务水平[N];喀什日报(汉);2007年
5 本报记者 洪黎明;广域、安全、服务 抓住联网审计的要害[N];人民邮电;2010年
6 本报通讯员 张年德;巩固创建成果 加大创建力度[N];中国审计报;2007年
7 王国清;联网审计需完善[N];中国审计报;2009年
8 通讯员 王东方 王清远 记者 杨光林;项城审计争当全省一面旗[N];周口日报;2009年
9 本报记者;凉山州审计局荣获全国审计系统先进集体[N];凉山日报(汉);2010年
10 王东方 王清远;项城市审计局荣获“全国审计系统先进集体”荣誉称号[N];周口日报;2010年
中国博士学位论文全文数据库 前10条
1 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
2 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
3 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
4 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
5 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
6 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
7 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
8 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
9 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
10 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
2 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
3 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
4 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
5 刘齐;内容审计系统的研究与实现[D];电子科技大学;2011年
6 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
7 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
8 张楚屏;从分词的静词作用看分词在计算机英语中的翻译方法[D];华中科技大学;2006年
9 盛鹏;基于全文过滤的垃圾邮件防范机制[D];昆明理工大学;2006年
10 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026