收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于微粒群和遗传优化的文本过滤关键技术研究

朱振方  
【摘要】:计算机技术的发展使得网络上的各种信息急剧增长,随之而来的还有大量的冗余信息和垃圾信息。这些信息不但影响Internet的使用效率和质量,而且影响网络的健康发展。在这种情况下,网络信息过滤技术应运而生,而通常所说信息过滤一般指对文本信息的过滤处理,本文相关研究就是针对文本信息过滤特别是中文文本信息过滤中存在的问题而提出的。 国内外很多研究机构和个人针对信息过滤技术,特别是面向中文的信息过滤技术进行了大量的研究工作,也取得了很多成绩。但是,由于文本信息特别是中文信息特有的复杂性、多义性,导致文本信息过滤研究中仍然存在以下问题有待解决: (1)基于内容的文本信息过滤在分词后通常产生大量的候选特征项,如果把所有的候选特征项都用来进行文本表示会增加训练的时间和空间复杂度,并且影响过滤效果。因此,寻找适用于文本信息过滤的权重计算方法是一个需要解决的问题。 (2)在抽取特征项集合基础上需要选择适当的优化算法生成类别过滤模板,目前建立过滤模板的方法都是对过滤需求的近似表达。因此,选择一种好的优化方法使得生成模板尽可能好的代表类别特征是一个需要解决的问题。 (3)在模板匹配过程中都是整个待分类文档的匹配和分类,从而忽略了待过滤文本个性化特征。特别是在过滤网络文本时,获得的网络数据文本文档往往都有一些附加信息,如何整理和优化待过滤文本是一个有待于解决的问题。 (4)由于过滤模板只能无限接近于真实模板,这就需要采用某种方法对过滤结果进行反馈处理从而调整过滤模板。如何利用馈结果及其对应的被过滤文档实现对过滤效果的改善是一个有待于解决的问题。 本文以文本信息过滤为目标,针对文本信息过滤特别是中文文本信息过滤中存在的问题展开研究,主要创新点包括以下五个方面: (1)提出了一种综合计算文档权重、段落权重、句子权重和特征项权重的权重计算方法 基于内容的文本信息过滤通常将过滤训练文档集转换为空间向量的形式供分类算法分析使用。但是,对训练文档集进行分词后通常产生大量的特征项,如果把所有特征项都用来表示类别,会增加文本过滤的时间和空间复杂度,且很多词对文本过滤的贡献极小,甚至会影响过滤效果。本文在研究相关特征权重计算方法的基础上,综合考虑待匹配文档的文档权重、句子权重、段落权重、特征项权重以及上下文关系提出了一种新的特征权重计算方法。 (2)建立了遗传算法解决中文文本信息过滤问题的模型并通过理论和实验两个方面证明了其可行性 无论采用什么方法建立的过滤模板,都只是过滤需求的一种近似表达。但是,针对某一专题的内容来讲,理论上都存在着一个真实的过滤模板,它能够准确地表达过滤需求,这个真实模板通过数学求解或实验方法是得不到的,只能通过对初始模板的调整使它不断逼近于真实模板。本文针对应用遗传算法解决中文文本信息过滤问题,建立了问题模型,并在理论上证明了可行性。同时,还根据在实际应用中存在的问题,引入了自适应策略解决应用过程中存在的问题。 (3)给出一种以特征词概念为中心的逻辑段落结构并实现了基于逻辑段落的匹配机方法 应用向量空间模型进行的匹配和分类中,往往都是整个待分类文档的匹配和分类,从而忽略了待分类文本中的段落特征。同时,目前针对于段落的匹配机制也往往是针对传统的物理段落,即给不同的段落赋予不同的权值,从而使用这些段落进行匹配,这就带有一定的机械性。因为这些物理段落往往较短或者本身包含的信息过少,甚至有些段落包含对于分类有副作用的信息。特别是在过滤网络文本时,获得的网络数据文本文档往往都有一些附加信息,如果使用这些段落实施匹配极其容易出现分类误差和匹配率较低的现象。本文从更加广泛的词义出发,建立一种以特征词概念为中心的逻辑段落结构,在此基础上实现了基于概念的语义段落的匹配机制,体现段落个性化特点,提高分类效果。 (4)改进了传统微粒群算法并实现了基于改进微粒群算法的、结合协作过滤思想的模板动态更新 要想获得更好的分类效果,必须使用大量的训练文本对系统进行训练。而训练文本从收集、筛选再到人工标注需要耗费大量的人力物力。待分类文档又名未标记文档,因不需要标注和整理,在使用过程中就可以获得,所以代价要小得多。如果能有效利用待分类文档来调整过滤系统,将会带来事半功倍的效果。本文在论述内容过滤和协作过滤两种主要技术的基础上,针对它们存在的问题,提出一种结合两种过滤技术的混合方法。该方法应用遗传优化生成服务器端初始模板,应用粒子群优化用户返回信息实现模板更新,并且针对传统微粒群算法进行了改进。 (5)设计了基于上述改进策略的文本信息过滤模型并开发实现了系统 结合本文提出的融合段落特征的权重计算方法、基于模糊遗传算法的过滤模板生成算法、基于概念的逻辑段落划分方法以及基于微粒群的反馈优化机制,引入分层过滤机制,面向应用提出了分层、分级、分策略的信息过滤技术系统构架,提高信息过滤模型适应能力和过滤效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘淑梅;桑书娟;山岚;;文本过滤研究概述[J];信息技术;2009年09期
2 朱祥玉;侯德文;;基于概念学习的过滤模板获取方法[J];计算机技术与发展;2006年05期
3 江宝林,刘永丹,金峰,葛家翔,胡运发;一个基于语义分析的倾向性文档过滤系统[J];计算机应用与软件;2005年01期
4 赵林,胡恬,黄萱菁,吴立德;基于知网的概念特征抽取方法[J];通信学报;2004年07期
5 彭作民;;一个基于语义分析的文本过滤方法[J];计算机与信息技术;2007年09期
6 贺卫红;曹毅;;基于向量空间模型文本过滤算法[J];系统工程;2005年10期
7 桑书娟;闫怀平;;信息过滤研究概述[J];福建电脑;2010年09期
8 夏迎炬;黄萱菁;胡恬;吴立德;;文本过滤中一种阈值调整算法[J];模式识别与人工智能;2002年04期
9 吕滨;雷国华;于燕飞;杨泽雪;王亚东;;基于语义分析的网络不良信息过滤系统研究[J];计算机应用与软件;2010年02期
10 王卫玲;赵秀丽;张燕红;王凤芹;;文本过滤中的特征选择[J];微计算机信息;2010年21期
11 林鸿飞;基于混合模式的文本过滤模型[J];计算机研究与发展;2001年09期
12 张霞;;基于文本过滤的Web页面检索研究[J];电脑知识与技术;2008年26期
13 葛亮;赵建国;;一个中文网络文本过滤系统的设计[J];电脑知识与技术;2008年26期
14 汪洋;基于Web的信息资源的可利用性[J];合肥联合大学学报;2001年03期
15 李振星,徐泽平,唐卫清,唐荣锡;基于兴趣模型的WEB信息预测采集过滤方法[J];计算机工程与应用;2003年05期
16 李振星,陆大珏,任继成,唐卫清,唐荣锡;基于潜在语义索引的Web信息预测采集过滤方法[J];计算机辅助设计与图形学学报;2004年01期
17 陈江兵;张巍;;基于状态转换方法的不良信息文本过滤模型[J];江西教育学院学报;2005年06期
18 赵丰年;刘林;商建云;;基于概念的文本过滤模型[J];计算机工程与应用;2006年04期
19 原媛;孙敏;;基于CLARA的KNN文本分类过滤防火墙的设计实现[J];电脑开发与应用;2007年10期
20 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
中国重要会议论文全文数据库 前10条
1 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
4 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
5 吴立德;黄萱菁;;文本检索会议简介[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 张敏;马亮;马少平;陈群秀;;TREC2002介绍及清华大学实验研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 李东林;迟呈英;战学刚;;一个改进的中文文本过滤系统的设计与实现[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 庞宗强;封化民;邱鹍;宋国森;;基于Web的中文新闻视频内容分析[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
9 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 ;内容简介[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
3 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
6 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
7 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
8 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
9 吴江;基于本体的知识管理系统关键技术研究[D];西北大学;2007年
10 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
中国硕士学位论文全文数据库 前10条
1 周俊;一种不良文本过滤方法[D];电子科技大学;2012年
2 刘力;不良文本过滤系统的研究与实现[D];复旦大学;2011年
3 温园旭;变体短文本过滤算法研究[D];北京邮电大学;2013年
4 周聚;基于网络信息审计的文本过滤的研究与实现[D];苏州大学;2010年
5 邵建双;基于概念格的文本过滤系统的设计与实现[D];大连海事大学;2010年
6 孙浩;基于主动学习的文本过滤系统的研究[D];北京邮电大学;2011年
7 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
8 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
9 王立建;中文web文本过滤技术研究[D];中北大学;2010年
10 张磊;虚拟社区不良信息过滤技术研究[D];昆明理工大学;2011年
中国重要报纸全文数据库 前10条
1 记者 徐建华;“绿色上网”新标准为手机扫黄[N];中国质量报;2010年
2 记者 徐建华;网络扫黄 标准帮忙[N];中国质量报;2010年
3 通讯员 彭云 袁龙刚;袁仁国荣膺改革开放30年酒界领军人物[N];经理日报;2009年
4 记者 万宁;业绩增长仍是主流[N];中国证券报;2005年
5 本报记者 汪涛 ;证监会再下严令 迫货币市场基金软着陆[N];21世纪经济报道;2005年
6 李倩;多种价格国债招标方式有望推出[N];金融时报;2004年
7 市财政局办公室提供;市财政研究所得税改革政策[N];玉溪日报;2008年
8 本报记者 张泰欣;并购贷款操作指引或首季公布[N];中国证券报;2009年
9 记者 周科竞;上交所推出超大盘指数[N];北京商报;2009年
10 本报记者 安仲文;上证超级大盘指数授权博时开发ETF[N];上海证券报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978