收藏本站
《山东师范大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于微粒群和遗传优化的文本过滤关键技术研究

朱振方  
【摘要】:计算机技术的发展使得网络上的各种信息急剧增长,随之而来的还有大量的冗余信息和垃圾信息。这些信息不但影响Internet的使用效率和质量,而且影响网络的健康发展。在这种情况下,网络信息过滤技术应运而生,而通常所说信息过滤一般指对文本信息的过滤处理,本文相关研究就是针对文本信息过滤特别是中文文本信息过滤中存在的问题而提出的。 国内外很多研究机构和个人针对信息过滤技术,特别是面向中文的信息过滤技术进行了大量的研究工作,也取得了很多成绩。但是,由于文本信息特别是中文信息特有的复杂性、多义性,导致文本信息过滤研究中仍然存在以下问题有待解决: (1)基于内容的文本信息过滤在分词后通常产生大量的候选特征项,如果把所有的候选特征项都用来进行文本表示会增加训练的时间和空间复杂度,并且影响过滤效果。因此,寻找适用于文本信息过滤的权重计算方法是一个需要解决的问题。 (2)在抽取特征项集合基础上需要选择适当的优化算法生成类别过滤模板,目前建立过滤模板的方法都是对过滤需求的近似表达。因此,选择一种好的优化方法使得生成模板尽可能好的代表类别特征是一个需要解决的问题。 (3)在模板匹配过程中都是整个待分类文档的匹配和分类,从而忽略了待过滤文本个性化特征。特别是在过滤网络文本时,获得的网络数据文本文档往往都有一些附加信息,如何整理和优化待过滤文本是一个有待于解决的问题。 (4)由于过滤模板只能无限接近于真实模板,这就需要采用某种方法对过滤结果进行反馈处理从而调整过滤模板。如何利用馈结果及其对应的被过滤文档实现对过滤效果的改善是一个有待于解决的问题。 本文以文本信息过滤为目标,针对文本信息过滤特别是中文文本信息过滤中存在的问题展开研究,主要创新点包括以下五个方面: (1)提出了一种综合计算文档权重、段落权重、句子权重和特征项权重的权重计算方法 基于内容的文本信息过滤通常将过滤训练文档集转换为空间向量的形式供分类算法分析使用。但是,对训练文档集进行分词后通常产生大量的特征项,如果把所有特征项都用来表示类别,会增加文本过滤的时间和空间复杂度,且很多词对文本过滤的贡献极小,甚至会影响过滤效果。本文在研究相关特征权重计算方法的基础上,综合考虑待匹配文档的文档权重、句子权重、段落权重、特征项权重以及上下文关系提出了一种新的特征权重计算方法。 (2)建立了遗传算法解决中文文本信息过滤问题的模型并通过理论和实验两个方面证明了其可行性 无论采用什么方法建立的过滤模板,都只是过滤需求的一种近似表达。但是,针对某一专题的内容来讲,理论上都存在着一个真实的过滤模板,它能够准确地表达过滤需求,这个真实模板通过数学求解或实验方法是得不到的,只能通过对初始模板的调整使它不断逼近于真实模板。本文针对应用遗传算法解决中文文本信息过滤问题,建立了问题模型,并在理论上证明了可行性。同时,还根据在实际应用中存在的问题,引入了自适应策略解决应用过程中存在的问题。 (3)给出一种以特征词概念为中心的逻辑段落结构并实现了基于逻辑段落的匹配机方法 应用向量空间模型进行的匹配和分类中,往往都是整个待分类文档的匹配和分类,从而忽略了待分类文本中的段落特征。同时,目前针对于段落的匹配机制也往往是针对传统的物理段落,即给不同的段落赋予不同的权值,从而使用这些段落进行匹配,这就带有一定的机械性。因为这些物理段落往往较短或者本身包含的信息过少,甚至有些段落包含对于分类有副作用的信息。特别是在过滤网络文本时,获得的网络数据文本文档往往都有一些附加信息,如果使用这些段落实施匹配极其容易出现分类误差和匹配率较低的现象。本文从更加广泛的词义出发,建立一种以特征词概念为中心的逻辑段落结构,在此基础上实现了基于概念的语义段落的匹配机制,体现段落个性化特点,提高分类效果。 (4)改进了传统微粒群算法并实现了基于改进微粒群算法的、结合协作过滤思想的模板动态更新 要想获得更好的分类效果,必须使用大量的训练文本对系统进行训练。而训练文本从收集、筛选再到人工标注需要耗费大量的人力物力。待分类文档又名未标记文档,因不需要标注和整理,在使用过程中就可以获得,所以代价要小得多。如果能有效利用待分类文档来调整过滤系统,将会带来事半功倍的效果。本文在论述内容过滤和协作过滤两种主要技术的基础上,针对它们存在的问题,提出一种结合两种过滤技术的混合方法。该方法应用遗传优化生成服务器端初始模板,应用粒子群优化用户返回信息实现模板更新,并且针对传统微粒群算法进行了改进。 (5)设计了基于上述改进策略的文本信息过滤模型并开发实现了系统 结合本文提出的融合段落特征的权重计算方法、基于模糊遗传算法的过滤模板生成算法、基于概念的逻辑段落划分方法以及基于微粒群的反馈优化机制,引入分层过滤机制,面向应用提出了分层、分级、分策略的信息过滤技术系统构架,提高信息过滤模型适应能力和过滤效率。
【学位授予单位】:山东师范大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 赵世奇,张宇,刘挺,陈毅恒,黄永光,李生;基于类别特征域的文本分类特征选择方法[J];中文信息学报;2005年06期
2 于江生 ,俞士汶;中文概念词典的结构[J];中文信息学报;2002年04期
3 周水庚,关佶红,俞红奇,胡运发;基于Ngram信息的中文文档分类研究[J];中文信息学报;2001年01期
4 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
5 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
6 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
7 郭东伟,刘大有,周春光,张仲明;遗传算法收敛性的动力学分析及其应用[J];计算机研究与发展;2002年02期
8 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
9 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期
10 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
中国博士学位论文全文数据库 前1条
1 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
中国硕士学位论文全文数据库 前1条
1 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 刘扬,俞士汶,于江生;CCD语义知识库的构造研究[J];小型微型计算机系统;2005年08期
2 安振刚,李谋渭,尹显东,于宁,唐伟;遗传神经网络在平整轧制力预报中的应用[J];鞍钢技术;2001年06期
3 王文联,侯整风,周先存;基于NDIS中间驱动程序的防火墙的研究与实现[J];安徽建筑工业学院学报(自然科学版);2004年01期
4 袁军,邱扬,田锦;电磁兼容设计中通信车辆天线布局设计[J];安全与电磁兼容;2003年06期
5 张军红,谢安国,沈峰满;烧结矿质量预测的BP网络模型[J];鞍山钢铁学院学报;2001年06期
6 张剑;李大卫;;基于粒子群优化和两性二倍体的遗传算法及其应用[J];鞍山科技大学学报;2006年04期
7 张志华;王莉;;网络环境下广告资源优化决策模型[J];鞍山科技大学学报;2006年05期
8 高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期
9 曾齐红;基于遗传算法求解炼钢-连铸浇次排序问题[J];鞍山师范学院学报;2004年06期
10 杨鑫坤;王薇;;分布式防火墙的设计及其在校园网中的实现[J];安阳工学院学报;2006年06期
中国重要会议论文全文数据库 前10条
1 邵鹰;吴强;;基于SPI机制的BIA系统设计与实现[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
2 何平;周辉;;一种基于遗传算法的图像信息隐藏算法[A];全国第二届嵌入式技术联合学术会议论文集[C];2007年
3 耿玉磊;张翔;;多目标优化的求解方法与发展[A];福建省科协第四届学术年会提升福建制造业竞争力的战略思考专题学术年会论文集[C];2004年
4 陈佳彬;张翔;;全局优化算法研究[A];福建省科协第五届学术年会数字化制造及其它先进制造技术专题学术年会论文集[C];2005年
5 尹秋菊;;基于信号博弈GA在客户关系管理中的应用[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
6 舒辉;文劲宇;曹一家;罗春风;王大光;宋福海;;基于改进遗传算法的发电机励磁系统参数辨识[A];湖北省电工技术学会2004年学术年会论文集[C];2004年
7 刘维东;陈德春;王志平;;基本遗传算法在围海规划中的应用研究[A];第十二届中国海岸工程学术讨论会论文集[C];2005年
8 刘永;张立毅;;基于遗传神经网络盲均衡算法的研究[A];2006中国西部青年通信学术会议论文集[C];2006年
9 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
10 刘艳芳;封化民;丁天昌;;中文视频问答系统研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
2 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
3 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
4 孙勇智;人工免疫系统模型、算法及其应用研究[D];浙江大学;2005年
5 李海民;遗传算法性能及其在聚类分析中应用的研究[D];西安电子科技大学;1999年
6 刘皓玮;行车指挥系统的Petri网建模与列车运行调整的遗传优化的研究[D];铁道部科学研究院;2000年
7 霍红卫;遗传算法在图论和优化中的应用[D];西安电子科技大学;2000年
8 彭真明;地震反演中的非线性优化方法及应用研究[D];成都理工学院;2001年
9 刘贵喜;多传感器图像融合方法研究[D];西安电子科技大学;2001年
10 张家树;混沌信号的非线性自适应预测技术及其应用研究[D];电子科技大学;2001年
中国硕士学位论文全文数据库 前10条
1 唐晓文;基于知识特征的教学资源收集和组织的研究与实现[D];中南大学;2005年
2 曾慧宏;面向网络学习的知识服务平台及检索方法研究[D];中南大学;2005年
3 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年
4 邱宇红;向量空间模型在医学文献相关性研究中的应用[D];中国医科大学;2006年
5 颜毛智;基于主动机制的广播数据快速过滤方法研究[D];华侨大学;2006年
6 曾庆辉;基于Agent的信息推荐系统研究[D];西南师范大学;2005年
7 马安香;基于分类语义的Web信息抽取机制的研究与实现[D];东北大学;2005年
8 杨治;基于实例推理的软件设计模式复用方法的研究[D];华中师范大学;2005年
9 巢进波;数字图书馆个性化主动信息服务技术研究[D];燕山大学;2004年
10 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
【同被引文献】
中国期刊全文数据库 前8条
1 黄晓斌;;基于协同过滤的数字图书馆推荐系统研究[J];大学图书馆学报;2006年01期
2 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
3 林鸿飞;基于混合模式的文本过滤模型[J];计算机研究与发展;2001年09期
4 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
5 卢金荣;郭东强;;信息生态理论研究进展[J];情报杂志;2007年03期
6 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
7 梅海燕;信息过滤问题的研究[J];现代图书情报技术;2002年02期
8 蒋军锋;党兴华;刘兰建;;基于现代场理论的技术创新网络知识测度特征研究[J];中国软科学;2007年03期
中国硕士学位论文全文数据库 前5条
1 刘玉国;基于遗传算法的网络信息过滤模型研究[D];山东师范大学;2006年
2 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
3 林建;网络不良信息过滤研究[D];华中师范大学;2007年
4 明均仁;网络文本信息过滤模型及优化策略研究[D];华中师范大学;2007年
5 王翠平;基于用户兴趣度的网络信息过滤模型研究[D];山东师范大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
2 白丽君,张永奎,陈鑫卿;协作过滤研究概述[J];电脑开发与应用;2002年11期
3 贺前华,韦岗,陆以勤;基因算法研究进展[J];电子学报;1998年10期
4 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
5 卢志茂,刘挺,张刚,李生;基于依存分析改进贝叶斯模型的词义消歧[J];高技术通讯;2003年05期
6 郭艳华,周昌乐;自然语言理解研究综述[J];杭州电子工业学院学报;2000年01期
7 鲁川,缑瑞隆,刘钦荣;交易类四价动词及汉语谓词配价的分类系统[J];汉语学习;2000年06期
8 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
9 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
10 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
中国博士学位论文全文数据库 前2条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
中国硕士学位论文全文数据库 前1条
1 曲建华;Web上的信息过滤问题研究[D];山东师范大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 朱祥玉;侯德文;;基于概念学习的过滤模板获取方法[J];计算机技术与发展;2006年05期
2 刘永丹,曾海泉,李荣陆,胡运发;基于语义分析的倾向性文本过滤[J];通信学报;2004年07期
3 江宝林,刘永丹,金峰,葛家翔,胡运发;一个基于语义分析的倾向性文档过滤系统[J];计算机应用与软件;2005年01期
4 赵林,胡恬,黄萱菁,吴立德;基于知网的概念特征抽取方法[J];通信学报;2004年07期
5 彭作民;;一个基于语义分析的文本过滤方法[J];计算机与信息技术;2007年09期
6 贺卫红;曹毅;;基于向量空间模型文本过滤算法[J];系统工程;2005年10期
7 夏迎炬;黄萱菁;胡恬;吴立德;;文本过滤中一种阈值调整算法[J];模式识别与人工智能;2002年04期
8 桑书娟;闫怀平;;信息过滤研究概述[J];福建电脑;2010年09期
9 吕滨;雷国华;于燕飞;杨泽雪;王亚东;;基于语义分析的网络不良信息过滤系统研究[J];计算机应用与软件;2010年02期
10 王卫玲;赵秀丽;张燕红;王凤芹;;文本过滤中的特征选择[J];微计算机信息;2010年21期
中国重要会议论文全文数据库 前10条
1 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
3 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
5 吴立德;黄萱菁;;文本检索会议简介[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 张敏;马亮;马少平;陈群秀;;TREC2002介绍及清华大学实验研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 李东林;迟呈英;战学刚;;一个改进的中文文本过滤系统的设计与实现[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞宗强;封化民;邱鹍;宋国森;;基于Web的中文新闻视频内容分析[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
10 ;内容简介[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前3条
1 记者 徐建华;“绿色上网”新标准为手机扫黄[N];中国质量报;2010年
2 记者 徐建华;网络扫黄 标准帮忙[N];中国质量报;2010年
3 本报记者 徐建华;我国着力构建绿色上网标准体系[N];中国质量报;2009年
中国博士学位论文全文数据库 前8条
1 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
3 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
6 吴江;基于本体的知识管理系统关键技术研究[D];西北大学;2007年
7 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
8 张博;多视点商品本体学习研究[D];武汉理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘力;不良文本过滤系统的研究与实现[D];复旦大学;2011年
2 周俊;一种不良文本过滤方法[D];电子科技大学;2012年
3 周聚;基于网络信息审计的文本过滤的研究与实现[D];苏州大学;2010年
4 邵建双;基于概念格的文本过滤系统的设计与实现[D];大连海事大学;2010年
5 孙浩;基于主动学习的文本过滤系统的研究[D];北京邮电大学;2011年
6 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
7 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
8 张磊;虚拟社区不良信息过滤技术研究[D];昆明理工大学;2011年
9 王立建;中文web文本过滤技术研究[D];中北大学;2010年
10 许明英;反馈增量学习算法及其在网络信息过滤中的应用研究[D];山东师范大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026