收藏本站
《东北师范大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

文本内容过滤的关键技术研究

王圆  
【摘要】:21世纪是信息时代,也是网络时代。随着信息科学的进步和因特网的普及,网络信息资源越来越丰富,网上信息呈爆炸式增长。这一方面给用户发现信息、利用信息带来了方便,另一方面,无序、极其庞大的信息世界和成千上万的超级链接,又常常使用户在查找其所需信息时感到力不从心。 网络信息过滤,就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用的信息的过程。信息过滤是实现信息的个性化主动服务的前提。个性化服务的实质是针对性,即针对不同的用户采取不同的服务策略,提供不同的服务内容。主动服务的实质是主动性,即系统自动按照用户的信息需求提供相应的服务。个性化主动服务将使用户通过尽可能小的投入获得尽可能好的服务回报。 本文从基本概念入手,阐述网络信息过滤的基本问题,包括信息过滤基本原理、过滤系统的一般处理流程、过滤系统的分类、相关信息检索模型以及过滤系统的性能评价指标等。然后,着重对文本内容过滤中涉及的关键技术进行深入地分析和探讨。主要包括中文自动分词技术、文本特征抽取技术、用户需求模板的表示和文本分类技术。在此研究基础上,设计一个文本内容过滤原型系统,并对系统总体框架、功能模块以及系统实现的主要方法进行详细阐述。
【学位授予单位】:东北师范大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前3条
1 贾美娟;李娟;;基于分级匹配的信息过滤研究[J];大庆师范学院学报;2007年05期
2 孙铁利;李晓微;张妍;;信息过滤中的中文自动分词技术研究[J];计算机工程与科学;2009年03期
3 孙凯;魏海平;;一种改进的文本特征选择方法[J];科学技术与工程;2012年12期
中国博士学位论文全文数据库 前1条
1 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
中国硕士学位论文全文数据库 前5条
1 许明英;反馈增量学习算法及其在网络信息过滤中的应用研究[D];山东师范大学;2012年
2 李晓微;基于内容的中文文本过滤关键技术研究[D];东北师范大学;2008年
3 杜娟;基于内容的网络信息过滤模型的应用研究[D];大庆石油学院;2009年
4 张立伟;网络信息过滤中反馈机制的研究及应用[D];山东师范大学;2010年
5 王立建;中文web文本过滤技术研究[D];中北大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
2 白丽君,张永奎,陈鑫卿;协作过滤研究概述[J];电脑开发与应用;2002年11期
3 郭艳华,周昌乐;自然语言理解研究综述[J];杭州电子工业学院学报;2000年01期
4 和亚丽,陈立潮;Web文本挖掘中的特征选取方法研究[J];计算机工程;2005年05期
5 许建潮,胡明;中文Web文本的特征获取与分类[J];计算机工程;2005年08期
6 马玉春,宋瀚涛;Web中文文本分词技术研究[J];计算机应用;2004年04期
7 陈治纲,何丕廉,孙越恒,郑小慎;基于向量空间模型的文本分类方法的研究与实现[J];计算机应用;2004年S1期
8 曾春,邢春晓,周立柱;个性化服务技术综述[J];软件学报;2002年10期
9 何静,刘海燕;信息检索与过滤中的信息需求表示方法[J];计算机工程与设计;2003年08期
10 姚佳梅;基于自然语言理解技术的网络检索[J];图书馆工作与研究;2003年02期
中国博士学位论文全文数据库 前1条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前1条
1 曲建华;Web上的信息过滤问题研究[D];山东师范大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 王轲;邵陆寿;;基于镜头检测的成熟期水稻图像处理算法研究[J];安徽农业大学学报;2011年06期
3 李用江,回雁雁;基于ADO.NET的海洋经济生物MIS系统[J];安阳师范学院学报;2004年05期
4 王丽影;刘媛媛;李建英;;个性化服务在网络课程中的应用研究[J];办公自动化;2009年20期
5 蔡茂蓉;;基于VRML和Java的远程虚拟教学系统[J];兵工自动化;2005年06期
6 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
7 张辉;吴辉;刘瑞;周刚;;科技资源信息检索关键技术[J];北京航空航天大学学报;2006年09期
8 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
9 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
10 柳胜国;;网络信息过滤方法与高校文科读者的信息个性化服务[J];宝鸡文理学院学报(社会科学版);2009年03期
中国重要会议论文全文数据库 前10条
1 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
2 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
4 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
6 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
7 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
8 来旭;李国辉;徐蕊;;基于云图和雨量的关联规则挖掘[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
10 徐羽琼;李石坚;姚敏;;基于情境感知的个性化邮件服务[A];第四届和谐人机环境联合学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
4 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
5 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
6 魏军英;基于WEB服务的中小企业制造资源共享关键技术研究[D];山东科技大学;2011年
7 林甲灶;构建个性化智能移动电子商务系统的关键技术与方法研究[D];兰州大学;2011年
8 张卫;基于XaaS的制造服务链形成与应用研究[D];浙江大学;2011年
9 张蕾;概念结构及其应用[D];西北工业大学;2001年
10 郭忠伟;作战文书自动生成理论及方法研究[D];南京理工大学;2003年
中国硕士学位论文全文数据库 前10条
1 吴则则;支持动态演进的用户兴趣模型挖掘方法研究[D];山东科技大学;2010年
2 蔡宏果;基于基因表达式编程的Web个性化推荐技术研究[D];广西师范学院;2010年
3 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
4 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
5 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
6 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
7 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
8 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
9 何莹杰;个性化图书信息服务技术研究[D];哈尔滨工程大学;2010年
10 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张仰森;郭江;;四种统计词义消歧模型的分析与比较[J];北京信息科技大学学报(自然科学版);2011年02期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 明均仁;张帆;;网络文本信息过滤的意义及其模型初探[J];图书与情报;2007年04期
4 王修力;马利平;;文本信息检索的代数模型综述[J];吉林大学学报(信息科学版);2007年05期
5 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
6 ;Genetic Feature Selection for Texture Classification[J];Geo-Spatial Information Science;2004年03期
7 吴洪兴;彭宇;彭喜元;;适用于不平衡样本数据处理的支持向量机方法[J];电子学报;2006年S1期
8 蔡勇智;;未登录词识别算法的改进[J];福建电脑;2006年03期
9 贺卫红;曹毅;;基于向量空间模型文本过滤算法[J];系统工程;2005年10期
10 王海涌,郑丽英,刘丽艳;基于文本表示的特征项权值确定方法研究[J];甘肃科学学报;2005年03期
中国博士学位论文全文数据库 前4条
1 方付建;突发事件网络舆情演变研究[D];华中科技大学;2011年
2 张毅波;中文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
3 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
4 吴青;基于优化理论的支持向量机学习算法研究[D];西安电子科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
2 李东艳;互联网信息内容安全过滤方法研究[D];山西大学;2004年
3 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
4 孙岩国;基于Internet的中文文本过滤系统的研究与实践[D];兰州理工大学;2004年
5 刘七;基于Web文本内容的信息过滤系统的研究与设计[D];南京理工大学;2004年
6 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年
7 王金宝;基于增量学习和阀值优化的自适应信息过滤[D];大连理工大学;2006年
8 柳培林;基于向量空间模型的中文文本分类技术研究[D];大庆石油学院;2006年
9 朱祥玉;基于向量空间模型的自适应文本过滤系统研究[D];山东师范大学;2006年
10 李守华;中文信息过滤技术的研究[D];北京化工大学;2006年
【二级引证文献】
中国期刊全文数据库 前8条
1 黄明;王慧;梁旭;;最大熵模型的语义句法分析在陪护机器人中的应用[J];大连交通大学学报;2011年05期
2 桑书娟;王敏;;一种结合文档频率和互信息的特征项提取方法[J];电脑知识与技术;2012年11期
3 王子强;张文阁;王洪艳;;基于内容的网络异常信息过滤[J];硅谷;2012年18期
4 黄魏;高兵;刘异;杨克巍;;基于词条组合的军事类文本分词方法[J];计算机科学;2010年02期
5 吴绍兵;;基于贝叶斯方法的网络信息过滤技术研究[J];计算机与现代化;2012年05期
6 黄魏;高兵;刘异;杨克巍;;基于词条组合的中文文本分词方法[J];科学技术与工程;2010年01期
7 朱健;卢秉亮;张春宇;;网络信息分级过滤系统的研究与实现[J];微处理机;2012年02期
8 王景中;郭兆亮;;基于分层的中文Web文本内容过滤研究[J];网络安全技术与应用;2012年11期
中国硕士学位论文全文数据库 前10条
1 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
2 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
3 陈孝礼;基于改进SVM的垃圾邮件过滤系统研究与实现[D];山东师范大学;2011年
4 董慧;基于多元权重特征加权的中文文本分类算法[D];中北大学;2011年
5 刘齐;内容审计系统的研究与实现[D];电子科技大学;2011年
6 于雪丽;LUCENE中文分词在科研文档全文检索系统的应用研究[D];青岛大学;2011年
7 张蓉;通用终端环境下移动存储介质信息安全通道的设计与实现[D];南京理工大学;2012年
8 许明英;反馈增量学习算法及其在网络信息过滤中的应用研究[D];山东师范大学;2012年
9 岳莉;基于Lucene的全文检索系统的研究与应用[D];西安电子科技大学;2010年
10 姜丽丽;基于潜在语义索引和支持向量机的文本分类过滤技术研究[D];大庆石油学院;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张琪玉;情报检索语言走向自动化之路与《中图法》发展新目标[J];北京图书馆馆刊;1996年04期
2 孙铁利,邓安生;智能用户接口Agent的用户模型与系统构建方法[J];东北师大学报(自然科学版);2000年03期
3 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
4 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期
5 林鸿飞;基于混合模式的文本过滤模型[J];计算机研究与发展;2001年09期
6 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
7 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期
8 周雪忠;吴朝晖;;文本知识发现:基于信息抽取的文本挖掘[J];计算机科学;2003年01期
9 邹涛,张福炎;网络信息搜寻技术与发展[J];计算机工程与科学;1998年04期
10 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
【相似文献】
中国期刊全文数据库 前10条
1 刘淑梅;桑书娟;山岚;;文本过滤研究概述[J];信息技术;2009年09期
2 吕滨;雷国华;于燕飞;杨泽雪;王亚东;;基于语义分析的网络不良信息过滤系统研究[J];计算机应用与软件;2010年02期
3 陈红英,李卫华;智能信息Agent的研究和实现[J];计算机工程与应用;2002年12期
4 胡建国;文登敏;;基于大量文本信息过滤系统的实现[J];成都信息工程学院学报;2008年03期
5 刘杨;陈晖;陈远江;;中文文本信息过滤技术研究[J];船电技术;2010年07期
6 陈红英,李卫华,毛革非;智能过滤Agent在Internet上的应用[J];计算机工程;2002年03期
7 刘永丹,曾海泉,李荣陆,胡运发;基于语义分析的倾向性文本过滤[J];通信学报;2004年07期
8 张霞;;基于文本过滤的Web页面检索研究[J];电脑知识与技术;2008年26期
9 陈红英,李卫华;智能信息Agent的原理和实现方法[J];计算机系统应用;2001年11期
10 江宝林,刘永丹,金峰,葛家翔,胡运发;一个基于语义分析的倾向性文档过滤系统[J];计算机应用与软件;2005年01期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 李东林;迟呈英;战学刚;;一个改进的中文文本过滤系统的设计与实现[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
9 ;中国中文信息学会交流材料[A];2011年网络学术交流研讨会交流材料[C];2011年
10 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 李北陵;谷歌退出无损中国却只贻害自己[N];证券时报;2010年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
3 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
4 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
5 彭骏孙小宁;澳大利亚启动网络有害信息过滤工程[N];人民邮电;2007年
6 Naomi Fine;信息过滤护驾知识产权[N];计算机世界;2006年
7 记者 颜维琦;“绿坝”发行将采用赠送安装盘方式[N];光明日报;2009年
8 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
9 卢东祥;校园网防火墙的选购[N];中国电脑教育报;2003年
10 记者 李忠发 王慧慧;中国坚决反对商业问题政治化[N];人民日报海外版;2010年
中国博士学位论文全文数据库 前10条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
3 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
6 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
7 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
8 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
9 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
10 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
2 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
3 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
4 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
5 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
6 邵建双;基于概念格的文本过滤系统的设计与实现[D];大连海事大学;2010年
7 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
8 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
9 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
10 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026