收藏本站
《兰州理工大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Internet的中文文本过滤系统的研究与实践

孙岩国  
【摘要】:本文简要介绍了文本过滤的背景,系统地探讨了文本过滤与文本检索及机器学习等领域的紧密联系,以一种典型的中文文本过滤逻辑模型为例,深入研究了实现中文文本过滤系统所涉及的各个方面的理论和技术,其中包括概念扩展,文本结构分析和特征抽取,潜在语义标注及自适应学习等技术。文章借鉴了其它文本过滤系统的优点,充分考虑了系统的召回率,查准率,运行效率及可实现性,给出了一种改进的中文文本过滤系统的体系结构,增加了类匹配模块和用户兴趣反馈模块。并详细阐述了一种混合式的中文文本过滤方法,给出了实现该系统主要模块的数学模型及其相关的算法。 利用Java技术对整个中文文本过滤系统的功能模块进行了尝试性的实践。在实践中,实现了自动构建反向词频库,改进了关键词权重计算方法,增加了主题句权重计算方法,调节了数学模型中的相关系数,还增加了其它传统的过滤引擎所没有的同义扩展及查询修正等功能,取得了一定的过滤效果。 最后,针对本系统在过滤的精确率上不太理想的特点,对本课题下一步要研究的内容进行了系统的总结,并提出了自己的一些看法。
【学位授予单位】:兰州理工大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 刘杨;陈晖;陈远江;;中文文本信息过滤技术研究[J];船电技术;2010年07期
2 刘永丹,曾海泉,李荣陆,胡运发;基于语义分析的倾向性文本过滤[J];通信学报;2004年07期
3 王卫玲;赵秀丽;张燕红;王凤芹;;文本过滤中的特征选择[J];微计算机信息;2010年21期
4 林鸿飞;基于混合模式的文本过滤模型[J];计算机研究与发展;2001年09期
5 江宝林,刘永丹,金峰,葛家翔,胡运发;一个基于语义分析的倾向性文档过滤系统[J];计算机应用与软件;2005年01期
6 张霞;;基于文本过滤的Web页面检索研究[J];电脑知识与技术;2008年26期
7 汪洋;基于Web的信息资源的可利用性[J];合肥联合大学学报;2001年03期
8 李振星,徐泽平,唐卫清,唐荣锡;基于兴趣模型的WEB信息预测采集过滤方法[J];计算机工程与应用;2003年05期
9 李振星,陆大珏,任继成,唐卫清,唐荣锡;基于潜在语义索引的Web信息预测采集过滤方法[J];计算机辅助设计与图形学学报;2004年01期
10 陈江兵;张巍;;基于状态转换方法的不良信息文本过滤模型[J];江西教育学院学报;2005年06期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 李东林;迟呈英;战学刚;;一个改进的中文文本过滤系统的设计与实现[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
8 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
9 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
10 吴立德;黄萱菁;;文本检索会议简介[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
3 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
4 ;健康、成本兼顾[N];中国计算机报;2004年
5 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
6 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
7 赛迪评测外设测试实验室;Canonxnu i320喷墨打印机[N];中国计算机报;2002年
8 赛迪评测计算机外围设备实验室;Epson Stylus Photo 915彩色喷墨打印机[N];中国计算机报;2003年
9 ;为专业打印提供更高扩展性[N];中国计算机报;2004年
10 詹亦文;签英文合同谨防陷阱[N];中国改革报;2003年
中国博士学位论文全文数据库 前10条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
3 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
4 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
5 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
6 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
7 徐迎晖;文本载体信息隐藏技术研究[D];北京邮电大学;2006年
8 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
9 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
10 吴江;基于本体的知识管理系统关键技术研究[D];西北大学;2007年
中国硕士学位论文全文数据库 前10条
1 孙岩国;基于Internet的中文文本过滤系统的研究与实践[D];兰州理工大学;2004年
2 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
3 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
4 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
5 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
6 许林杰;中文文本分词研究[D];山东师范大学;2003年
7 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
8 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
9 刘力;不良文本过滤系统的研究与实现[D];复旦大学;2011年
10 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026