收藏本站
《南京理工大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web文本内容的信息过滤系统的研究与设计

刘七  
【摘要】:Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷向、不良信息充斥网上等等很多问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。 本文从过滤不良信息的实用技术角度出发,对基于Web文本内容的不良信息过滤系统进行了研究和设计。 本文主要工作包括: 构建了基于Web文本内容的不良信息过滤系统的模型。 提取Web页面中标记信息和正文文本信息,组成训练文本集。 按照一定的方法从训练文本集中抽取特征项,并经过反复训练,建立起特征词典。 利用特征词典完成对训练文本和测试文本的表示:正文文本建立VSM表示,标记信息采用布尔模型表示。 建立分级匹配策略,完成两者之间的匹配,以决定是否屏蔽测试文本。
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前2条
1 蔡银珊;黄英铭;;基于改进的TF-IDF特征权重算法的网页自动分类[J];绵阳师范学院学报;2010年08期
2 沈凤仙;朱巧明;;基于特征倾向性的网页特征提取方法研究[J];计算机工程与设计;2009年16期
中国硕士学位论文全文数据库 前10条
1 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
2 吴金元;网络化产品设计信息过滤中若干关键技术研究[D];武汉理工大学;2006年
3 朱祥玉;基于向量空间模型的自适应文本过滤系统研究[D];山东师范大学;2006年
4 李东林;中文信息过滤技术的研究与应用[D];辽宁科技大学;2006年
5 覃张华;短文本语义过滤技术的研究[D];北方工业大学;2008年
6 王美方;信息过滤系统中特征选择算法的研究[D];山东师范大学;2008年
7 李晓微;基于内容的中文文本过滤关键技术研究[D];东北师范大学;2008年
8 胡建国;基于文本信息过滤技术的短信防火墙系统设计与实现[D];西南交通大学;2008年
9 沈凤仙;一个WEB文本过滤系统设计与实现[D];苏州大学;2009年
10 律佳;文本信息过滤器的研究与实现[D];大庆石油学院;2009年
【参考文献】
中国期刊全文数据库 前10条
1 郝慧珍,傅汝林;基于IP伪装的网络安全技术研究[J];成都理工学院学报;2002年03期
2 廖永红,黄战;基于IP包内容的Windows包过滤技术的实现[J];电脑与信息技术;2001年03期
3 周燕;利用Winsock实现网址过滤[J];淮南师范学院学报;2002年03期
4 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
5 林鸿飞;基于混合模式的文本过滤模型[J];计算机研究与发展;2001年09期
6 林鸿飞;基于示例的文本标题分类机制[J];计算机研究与发展;2001年09期
7 林鸿飞,战学刚,姚天顺;文本特征区域与文本过滤的匹配机制[J];计算机工程与应用;2000年07期
8 李业丽,林鸿飞,姚天顺;基于示例的用户信息需求模型的获取和表示[J];计算机工程与应用;2000年09期
9 牛伟霞,张永奎;潜在语义索引方法在信息过滤中的应用[J];计算机工程与应用;2001年09期
10 张义忠,赵明生,朱精南;基于内容的网页特征提取[J];计算机工程与应用;2001年10期
【共引文献】
中国期刊全文数据库 前10条
1 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
2 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
3 胡锡衡;;垃圾邮件过滤系统模型的研究与设计[J];鞍山师范学院学报;2009年02期
4 胡锡衡;;径向基函数在文本分类中的应用[J];鞍山师范学院学报;2011年02期
5 郭新志;钟家民;;一种改进的双重过滤模型算法[J];安阳工学院学报;2009年02期
6 宋涛;施水才;房祥;吕学强;;基于改进的潜在语义分析的文本聚类[J];北京信息科技大学学报(自然科学版);2012年03期
7 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
8 梁晟;;一种基于支持向量机的垃圾邮件识别方法[J];毕节学院学报;2010年04期
9 金玮;张克君;杨炳儒;;一种高效挖掘关联规则的算法研究[J];北京工商大学学报(自然科学版);2006年06期
10 陈大平;;搜索引擎技术方式之探析[J];长春理工大学学报(高教版);2009年10期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 覃张华;王景中;;基于语境框架的倾向性文本过滤算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
3 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
5 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
6 孙铁利;杨焱;邱春艳;;基于内容预测的协同过滤推荐[A];2005年全国理论计算机科学学术年会论文集[C];2005年
7 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
8 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年
9 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
10 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年
3 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
4 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
5 沈巍;建立股指波动预测模型的方法研究及应用[D];华北电力大学(北京);2011年
6 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
7 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
8 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
9 魏军英;基于WEB服务的中小企业制造资源共享关键技术研究[D];山东科技大学;2011年
10 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
4 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
5 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
6 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
7 何昌钦;图像检索方法研究[D];大连理工大学;2010年
8 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
9 杨贵海;船舶企业物资管理系统的设计与实现[D];大连海事大学;2010年
10 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 杨宝华;;基于BP神经网络的西瓜仁重预测[J];安徽农业大学学报;2008年04期
2 欧阳钧;王爱枝;;基于Matlab的BP神经网络在大气污染物浓度预测中的应用[J];环境科学与管理;2009年11期
3 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
4 黄鑫,尹宝林;多层次多策略的分布式网络信息过滤系统模型[J];北京航空航天大学学报;2003年10期
5 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
6 明均仁;张帆;;网络文本信息过滤的意义及其模型初探[J];图书与情报;2007年04期
7 王修力;马利平;;文本信息检索的代数模型综述[J];吉林大学学报(信息科学版);2007年05期
8 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
9 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
10 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
中国博士学位论文全文数据库 前2条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前10条
1 景韶宇;面向并行工程的网络协同设计系统的研究[D];西北工业大学;2001年
2 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年
3 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
4 汪国洋;基于内容过滤和重现的新型防火墙[D];北方工业大学;2003年
5 曲建华;Web上的信息过滤问题研究[D];山东师范大学;2003年
6 朱剑飞;网络环境下三维模型的协同浏览、查询和批注技术研究[D];西北工业大学;2003年
7 李东艳;互联网信息内容安全过滤方法研究[D];山西大学;2004年
8 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
9 陈晋川;基于CoP建模的信息过滤技术研究[D];中国科学院研究生院(软件研究所);2004年
10 孙岩国;基于Internet的中文文本过滤系统的研究与实践[D];兰州理工大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期
2 陈丽萍;赵利平;陈新敏;;基于自学习规避库的短消息过滤系统的设计与实现[J];电脑知识与技术;2011年31期
3 桑书娟;周晏;;一种基于词长的TFIDF特征项权值计算方法[J];电脑知识与技术;2011年32期
4 桑书娟;王敏;;一种结合文档频率和互信息的特征项提取方法[J];电脑知识与技术;2012年11期
5 刘露;;浅析TF-IDF在企业组织风险中的研究[J];硅谷;2011年15期
6 王子强;张文阁;王洪艳;;基于内容的网络异常信息过滤[J];硅谷;2012年18期
7 彭文惠;吴小刚;蒋华;;基于柔性字符串匹配的校园BBS过滤系统[J];计算机与现代化;2011年02期
8 刘红芝;;基于N层向量空间模型和两重过滤方法的文本过滤系统的研究[J];科技信息;2009年32期
9 王海;冯向前;钱钢;;网页在线评论情感倾向的直觉模糊分类[J];计算机工程与应用;2013年01期
10 刘红芝;;网络信息过滤系统的分类[J];图书馆学刊;2010年04期
中国博士学位论文全文数据库 前2条
1 周晶;面向产品全生命周期的网络化技术服务研究[D];东北大学;2009年
2 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
2 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
3 陈孝礼;基于改进SVM的垃圾邮件过滤系统研究与实现[D];山东师范大学;2011年
4 张晓宇;农业网站中垃圾网页过滤方法的研究[D];新疆大学;2011年
5 董月琴;基于Android的垃圾短信处理系统的研究与设计[D];安徽理工大学;2011年
6 张蓉;通用终端环境下移动存储介质信息安全通道的设计与实现[D];南京理工大学;2012年
7 胡金龙;基于文本的信息隐藏算法的设计[D];解放军信息工程大学;2011年
8 刘力;不良文本过滤系统的研究与实现[D];复旦大学;2011年
9 许明英;反馈增量学习算法及其在网络信息过滤中的应用研究[D];山东师范大学;2012年
10 吕青普;科技文档的分类与查重[D];天津财经大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 周斌,蔡久忠;电子商务网站成本及收入分析[J];成都信息工程学院学报;2002年03期
2 王继成,邹涛,杨小江,潘金贵,张福炎;基于Internet的信息资源发现技术与实现[J];计算机研究与发展;1999年11期
3 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
4 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
5 邹涛;王继成;杨文清;张福炎;;文本信息检索技术[J];计算机科学;1999年09期
6 林鸿飞;战学刚;姚天顺;;基于概念扩充的中文文本过滤模型[J];计算机科学;2000年02期
7 王伟强;高文;段立娟;;Internet上的文本数据挖掘[J];计算机科学;2000年04期
8 张珏,唐宁久;Linux系统IP伪装设定以及应用[J];计算机应用研究;1999年12期
9 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
10 战学刚,林鸿飞,姚天顺;中文文献的层次分类方法[J];中文信息学报;1999年06期
【相似文献】
中国期刊全文数据库 前10条
1 闵锦;黄萱菁;;基于主题和态度分类的文本过滤系统[J];计算机工程;2007年02期
2 刘永丹,曾海泉,李荣陆,胡运发;基于语义分析的倾向性文本过滤[J];通信学报;2004年07期
3 王卫玲;赵秀丽;张燕红;王凤芹;;文本过滤中的特征选择[J];微计算机信息;2010年21期
4 林鸿飞;基于混合模式的文本过滤模型[J];计算机研究与发展;2001年09期
5 江宝林,刘永丹,金峰,葛家翔,胡运发;一个基于语义分析的倾向性文档过滤系统[J];计算机应用与软件;2005年01期
6 张霞;;基于文本过滤的Web页面检索研究[J];电脑知识与技术;2008年26期
7 汪洋;基于Web的信息资源的可利用性[J];合肥联合大学学报;2001年03期
8 李振星,徐泽平,唐卫清,唐荣锡;基于兴趣模型的WEB信息预测采集过滤方法[J];计算机工程与应用;2003年05期
9 李振星,陆大珏,任继成,唐卫清,唐荣锡;基于潜在语义索引的Web信息预测采集过滤方法[J];计算机辅助设计与图形学学报;2004年01期
10 陈江兵;张巍;;基于状态转换方法的不良信息文本过滤模型[J];江西教育学院学报;2005年06期
中国重要会议论文全文数据库 前10条
1 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
4 吴立德;黄萱菁;;文本检索会议简介[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
6 张敏;马亮;马少平;陈群秀;;TREC2002介绍及清华大学实验研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 李东林;迟呈英;战学刚;;一个改进的中文文本过滤系统的设计与实现[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 庞宗强;封化民;邱鹍;宋国森;;基于Web的中文新闻视频内容分析[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
9 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 ;内容简介[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前5条
1 赵志荣;专题性搜索引擎[N];计算机世界;2000年
2 记者 徐建华;“绿色上网”新标准为手机扫黄[N];中国质量报;2010年
3 记者 徐建华;网络扫黄 标准帮忙[N];中国质量报;2010年
4 吴华;搜索排名 企业的信息化生存[N];中国高新技术产业导报;2003年
5 本报记者 徐建华;我国着力构建绿色上网标准体系[N];中国质量报;2009年
中国博士学位论文全文数据库 前9条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
3 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 阎红灿;面向Web的XML文档数据管理及分类检索技术研究[D];天津大学;2009年
6 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
7 吴江;基于本体的知识管理系统关键技术研究[D];西北大学;2007年
8 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
9 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘七;基于Web文本内容的信息过滤系统的研究与设计[D];南京理工大学;2004年
2 刘力;不良文本过滤系统的研究与实现[D];复旦大学;2011年
3 周俊;一种不良文本过滤方法[D];电子科技大学;2012年
4 周聚;基于网络信息审计的文本过滤的研究与实现[D];苏州大学;2010年
5 邵建双;基于概念格的文本过滤系统的设计与实现[D];大连海事大学;2010年
6 孙浩;基于主动学习的文本过滤系统的研究[D];北京邮电大学;2011年
7 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
8 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
9 张磊;虚拟社区不良信息过滤技术研究[D];昆明理工大学;2011年
10 王立建;中文web文本过滤技术研究[D];中北大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026