收藏本站
《北京邮电大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

文本挖掘预处理相关基础技术分析与应用研究

孙道军  
【摘要】: 本论文将在对比分析并发现现有文本挖掘技术存在不足的基础上,提出改进文本预处理精度的算法。文中涉及的主要技术包括文本收集、文本预处理、处理后的文本的中文分词、预抽取训练样本及使用KNN方法进行文本训练和文本分类等。通过对系统功能的分析,本研究把系统分成了文本预处理、中文分词、文本特征向量的提取、文本特征向量的训练和分类等四部分。 在文本特征向量的提取、文本特征向量的训练和分类部分中,作者研究了一种基于词的文档频率(DF)和信息增益相融合的的方法,这种方法不仅相对简单,有层次感,而且在保证分类器性能的基础上,可以允许我们适当地选择训练样本,减少支持向量,从而提高KNN的训练和分类速度。接着介绍了KNN的基本理论以及目前KNN方法在文本分类中的应用情况,以及如何使用KNN,利用获得的文本特征向量及其权重来生成输入文档,进行文本训练和分类的过程。 本课题实现了文本收集、文本预处理和中文分词等文本挖掘的关键技术,并在研究的基础上提出了一套特征抽取及文本挖掘的方案,为后续的研究奠定了基础。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 张冬慧;孙波;徐照财;程显毅;;文本自动分类关键技术研究[J];微计算机信息;2008年06期
2 胡静;蒋外文;朱华;;Web文本挖掘中数据预处理技术研究[J];现代计算机(专业版);2009年03期
3 李琳琢;;网络爬虫软件的研究与开发[J];软件导刊;2011年05期
4 唐培丽;胡明;解飞;刘钢;;全文检索搜索引擎中文信息处理技术研究[J];情报科学;2006年06期
5 李世明;赵恒永;李世友;;专题搜索引擎中信息过滤的研究与实现[J];计算机工程与设计;2006年08期
6 刘杨;陈晖;陈远江;;中文文本信息过滤技术研究[J];船电技术;2010年07期
7 宋华;;本体向量文献检索模型研究[J];情报探索;2010年11期
8 李世明;赵恒永;;专题搜索引擎研究与实现——信息过滤[J];电子科学技术评论;2005年04期
9 白若鹞;董渊;张素琴;徐大伟;;研究中文文本分类技术的辅助平台[J];清华大学学报(自然科学版)网络.预览;2008年07期
10 白若鹞;董渊;张素琴;徐大伟;;研究中文文本分类技术的辅助平台[J];清华大学学报(自然科学版);2008年07期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
7 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年
9 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
3 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
4 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
5 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
6 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
7 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
8 张韬;谷歌推出“谷歌拼音”力拼百度[N];上海证券报;2007年
9 王翌;互联网2005:个性化生存[N];计算机世界;2005年
10 李永胜;在中文网页搜索质量上 Google险胜百度[N];中国计算机报;2007年
中国博士学位论文全文数据库 前10条
1 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 邢军;领域本体构造中数据源选取及构造方法的研究[D];大连理工大学;2008年
5 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
6 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
7 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
8 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
9 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
10 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
2 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
3 袁凯;基于主题的网络蜘蛛的设计与实现[D];北京交通大学;2008年
4 李副铭;垂直搜索引擎的研究与设计[D];电子科技大学;2009年
5 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
6 操卫平;基于结构化向量空间模型的中文信息检索系统研究与实现[D];北京工业大学;2008年
7 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
8 郭浩军;基于本体的Web跨语言信息检索研究[D];华北电力大学(河北);2009年
9 赵治军;OAI-PMH中元数据相似度计算的研究与实现[D];太原科技大学;2009年
10 刘宏伟;搜索引擎中中文WEB文本自动分类研究[D];暨南大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026