收藏本站
《天津大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于向量空间模型的文本分类系统研究与实现

陈治纲  
【摘要】:Internet已被公认为是20世纪末人类科技史的里程碑,它促使人类社会步入了以网络为中心的信息时代。随着WEB信息量爆炸性增长,人们很难从大量的信息中迅速有效地提取出所需信息,出现所谓的“信息迷向”的现象。为了准确地定位所需的信息,文本分类的研究显得越来越重要了。 向量空间模型是进行大规模文本处理常用的表示模型,本文对基于向量空间模型的文本分类的关键技术进行了研究和探讨,包括:文本的表示,向量空间模型,特征类型的确定,特征的抽取与选择和文本分类算法等问题。 传统的向量空间模型不能区别不同位置的文本特征项表达文本内容的不同能力。针对该问题,本文运用位置修正因子调整特征项权重,提高了向量空间模型的性能。 本文结合已有的文本信息描述和特征抽取方法,综合考虑了频度、分散度和集中度等三项指标,设计并实现了一种新的特征抽取算法,使得选出的特征项整体优化。 作为对比的基准,本文编程实现了传统的基于类中心分类法的文本分类系统,通过分析该方法存在的问题,提出并实现了二级分类模式的文本分类系统。实验结果表明,二级分类模式的分类系统具有较高的精确度、召回率和F1测量值。 本文最后指出,概念空间能够深入描述文本之间的内在联系,采用概念空间代替词频空间来表示文本,不仅能够大大降低特征维数,提高文本分类效率,还能有效滤除噪声,提高文本分类的正确率。
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 陈艳秋;熊耀华;;新型快速中文文本分类器的设计与实现[J];计算机工程与应用;2009年22期
中国博士学位论文全文数据库 前1条
1 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 姜国新;支持多语言标签优先的元搜索引擎结果聚类研究[D];浙江工商大学;2011年
2 童李文;个人信息管理中文件路径编码研究[D];浙江工业大学;2010年
3 李惟;中文电子邮件作者身份识别系统研究[D];河北农业大学;2007年
4 陈剑敏;基于Bayes方法的文本分类器的研究与实现[D];重庆大学;2007年
5 孟庆顺;Web信息检索结果聚类系统的研究[D];天津大学;2007年
6 刘依璐;基于机器学习的中文文本分类方法研究[D];西安电子科技大学;2009年
7 王艳;基于内容管理的文本自动分类的研究与应用[D];大连海事大学;2009年
8 孙殿余;关联主题的个性化检索模型的研究[D];电子科技大学;2009年
9 尚翠玲;基于时序特征的贝叶斯垃圾邮件过滤研究[D];华南理工大学;2012年
10 张琴琴;垃圾邮件在对抗中的检测[D];华南理工大学;2013年
【参考文献】
中国期刊全文数据库 前6条
1 秦国锋,李启炎;基于数据挖掘的知识获取与发现[J];计算机工程;2003年21期
2 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
3 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期
4 俞士汶,段慧明,朱学锋,孙斌;北京大学现代汉语语料库基本加工规范[J];中文信息学报;2002年05期
5 沙俐敏;文本分类的几种方法研究[J];南方冶金学院学报;2004年01期
6 范宇中,张玉峰;文本知识的自动分类方法初探[J];情报科学;2003年01期
中国博士学位论文全文数据库 前1条
1 张毅波;中文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
【共引文献】
中国期刊全文数据库 前10条
1 区晶莹;简荣;俞守华;;数据挖掘技术在农产品质量安全监管中的应用[J];安徽农业科学;2009年32期
2 顾红;杜春英;高永刚;刘丹;宫丽娟;于瑛楠;李宇光;李竑积;董洁;;黑龙江省近48年积温和降水的变化及其对作物种植带的影响[J];安徽农业科学;2010年34期
3 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
4 钱明;丁海涛;徐小刚;;确定区域环境污染成因——HCA-PCA法[J];环境科学与管理;2006年06期
5 祝新亚;李许坚;;基于聚类分析和判别分析的我国主要省市综合实力状况评价[J];北方经济;2011年08期
6 张秀岩,李辉,李洁言,唐世君,胡鹏,王秀丽;模糊聚类分析在服装舒适性评价中的应用[J];北京服装学院学报;2001年01期
7 程勇,吴玺宏,迟惠生;汉语韵律边界定位与选音算法研究[J];北京大学学报(自然科学版);2004年03期
8 张波,林君,邵明武,李惕川,徐莲;化学计量学分光光度测定混合硝基苯[J];北京工业大学学报;2000年02期
9 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
10 罗森林;刘盈盈;冯扬;韩磊;陈功;王倩;;BFS-CTC汉语句义结构标注语料库构建方法[J];北京理工大学学报;2012年03期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 加米拉·吾守尔;瓦依提·阿布力孜;吐尔根·依布拉音;;《现代维吾尔语语法信息词典》数据库建设的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 俞士汶;朱学锋;段慧明;张化瑞;;以词义为主轴的综合型语言知识库[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 常宝宝;肖华云;;面向语言学家和词典编纂专家的汉英双语语料库检索系统[A];2004年辞书与数字化研讨会论文集[C];2004年
5 姜春祥;张艳明;何慧;王喻红;;基于集对论的网络安全态势评估[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 丁政建;张路;;基于本体的语义检索研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 ;Chinese Text Emotion Classification Based On Emotion Dictionary[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
8 吕敬堂;吕大明;张浩;;基于SPSS的农业功能聚类分区方法研究[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
9 林韵梅;;论最佳三要素的判别依据[A];岩石力学新进展[C];1989年
10 夏元友;肖峰;;斜坡稳定性评价的动态聚类分析方法[A];新世纪岩石力学与工程的开拓和发展——中国岩石力学与工程学会第六次学术大会论文集[C];2000年
中国博士学位论文全文数据库 前10条
1 周扬;面向中药药性多维表征体系的中药本体研究[D];山东中医药大学;2010年
2 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
3 徐广彬;公路建设对生态影响及植被恢复评价技术研究[D];吉林大学;2011年
4 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
5 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
6 陈海涛;基于供应链的中国石油资源安全保障研究[D];中南大学;2011年
7 苏娜;高技术产业与区域经济协调发展研究[D];天津大学;2010年
8 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
9 李月芬;吉林西部草原生态环境评价及其专家系统研究[D];吉林大学;2004年
10 杜文斌;基于神经网络的冠心病证候诊断标准与药效评价模型研究[D];辽宁中医学院;2004年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
3 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
4 李红;数据挖掘中特征选择与聚类算法研究[D];大连理工大学;2010年
5 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
6 刘庆虎;基于DF关系的聚类分析算法及其应用研究[D];苏州大学;2010年
7 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
8 梁晔平;中文文本自动分类相关算法的研究与实现[D];华南理工大学;2010年
9 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
10 汪旋;昭通彝良毛坪铅锌矿河东地区构造地球化学找矿应用研究[D];昆明理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 韩啸,曹辉;内容管理的关键技术[J];中国传媒科技;2004年05期
2 王洪春;;贝叶斯公式与贝叶斯统计[J];重庆科技学院学报(自然科学版);2010年03期
3 张峰,穆晓敏,杨守义;数字指纹技术的研究进展[J];电讯技术;2005年05期
4 孟辉;洪文学;宋佳霖;王立强;;基于多元图形特征融合原理的降维方法研究[J];燕山大学学报;2008年05期
5 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
6 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
7 孟佳娜;林鸿飞;李彦鹏;;基于特征贡献度的特征选择方法在文本分类中应用[J];大连理工大学学报;2011年04期
8 卫国平;陈俊杰;张健;;基于概念语义的用户兴趣模型的研究[J];电脑开发与应用;2008年08期
9 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
10 邓蔚;秦志光;刘峤;程红蓉;;抗好词攻击的中文垃圾邮件过滤模型[J];电子测量与仪器学报;2010年12期
中国博士学位论文全文数据库 前10条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
3 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
6 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
7 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
8 余轶军;Web访问信息挖掘若干关键技术的研究[D];浙江大学;2006年
9 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
10 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
2 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
3 陈琴;贝叶斯数据挖掘技术及其在反垃圾邮件中的应用[D];广西大学;2004年
4 王国琴;基于语义检索的概念空间研究[D];南京理工大学;2004年
5 王天真;基于神经网络的智能数据挖掘方法及应用研究[D];上海海事大学;2003年
6 左家莉;基于Markov网络的信息检索模型[D];江西师范大学;2005年
7 李威;基于向量空间的文本自动分类系统的研究和实现[D];兰州理工大学;2005年
8 肖明;基于SVM的智能邮件过滤系统研究与实现[D];电子科技大学;2005年
9 王磊;基于人工神经网络的煤巷围岩稳定性分类系统[D];山东科技大学;2005年
10 冯云;一种基于神经网络和多元统计分析的动态预测建模方法[D];哈尔滨工程大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 陈锐;张蕾;胡艳华;;基于语义的信息检索模型[J];计算机工程与应用;2009年26期
2 沈磊;郑超雷;叶勇武;诸葛斌;;智能建站CMS系统的研究[J];计算机时代;2010年07期
3 姜沛佩;刘培玉;杨玉珍;;一种改进的基于遗传禁忌优化的NB算法[J];计算机应用研究;2010年08期
4 沈友文;赵新建;徐俊;;一种改进的集中度和分散度文本特征选择算法[J];计算机应用与软件;2011年09期
5 袁文生;王晓峰;;基于朴素贝叶斯的中文海事文本多分类器研究[J];计算机与现代化;2011年05期
6 谢力;李光耀;谭云兰;;基于词频和文本类别的互信息改进算法[J];井冈山大学学报(自然科学版);2013年03期
7 周民;;基于文本挖掘的电子病历书写辅助系统[J];计算机与数字工程;2014年06期
8 易明;操玉杰;毛进;;基于点击流的个性化信息检索研究[J];情报科学;2011年04期
9 李欣;;一种对贝叶斯算法的改进算法分析[J];山东省农业管理干部学院学报;2011年05期
10 杨晴;;计算机信息检索步骤思考[J];现代商贸工业;2011年19期
中国博士学位论文全文数据库 前4条
1 吴胜;网站信息分类体系优化方法及其应用[D];南京林业大学;2009年
2 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
3 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年
4 王芳;基于本体的广域农业信息服务系统关键技术研究[D];河北农业大学;2012年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
3 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
4 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
5 周民;海量web舆情挖掘算法研究[D];电子科技大学;2011年
6 巩军全;文本分类算法的研究与改进[D];西安电子科技大学;2010年
7 姜沛佩;基于遗传禁忌算法的网络信息过滤模型研究[D];山东师范大学;2011年
8 李欣;基于校园网的网络信息过滤系统的设计与实现[D];山东师范大学;2011年
9 陶启立;基于语义的科技文档信息资源检索系统的设计与实现[D];西北大学;2011年
10 段永铎;农信通信息系统的设计与实现[D];吉林大学;2011年
【二级参考文献】
中国期刊全文数据库 前8条
1 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
2 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
3 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
4 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
5 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
6 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
7 王梦云,曹素青;基于字频向量的中文文本自动分类系统[J];情报学报;2000年06期
8 张月杰,姚天顺;基于特征相关性的汉语文本自动分类模型的研究[J];小型微型计算机系统;1998年08期
【相似文献】
中国期刊全文数据库 前10条
1 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
2 郭炜强;戴天;文贵华;;基于领域知识的专利自动分类[J];计算机工程;2005年23期
3 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
4 张娜;张化祥;;基于超链接和内容相关度的检索算法[J];计算机应用;2006年05期
5 杨丽华;戴齐;郭艳军;;KNN文本分类算法研究[J];微计算机信息;2006年21期
6 田正军;张鸿彦;;基于自动分类的邮件过滤系统[J];河南科学;2007年02期
7 周文霞;;现代文本分类技术研究[J];武警学院学报;2007年12期
8 朱宗乾;姬浩;杨冬民;;基于网络的ERP实施风险评价信息挖掘模型[J];计算机工程;2008年07期
9 曹建芳;王鸿斌;;基于SVM的汉语动词短语分类算法研究[J];河北北方学院学报(自然科学版);2008年02期
10 徐文海;温有奎;;一种基于TFIDF方法的中文关键词抽取算法[J];情报理论与实践;2008年02期
中国重要会议论文全文数据库 前10条
1 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年
4 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 苏贵洋;王永成;马颖华;;信息自动获取的结构模型[A];第一届学生计算语言学研讨会论文集[C];2002年
7 原福永;杨治秋;王海霞;;一种基于向量空间模型的文档聚类算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
8 林游龙;余智华;程学旗;刘悦;;虚点:一种减少特征值鸿沟的方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 廖祝华;刘建勋;易爱平;;基于用户兴趣的Web服务发现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
10 曹晶;孙铁利;杨柳;;基于概念向量空间模型的信息检索方法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
中国重要报纸全文数据库 前2条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
2 邢军;领域本体构造中数据源选取及构造方法的研究[D];大连理工大学;2008年
3 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
4 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
5 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
6 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
7 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
8 王菁;P2P系统中资源管理机制的研究[D];中国科学技术大学;2007年
9 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
2 张波;个性化Web搜索系统研究[D];燕山大学;2006年
3 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
4 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
5 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
6 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
7 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
8 赵文鹏;基于自组织特征映射的海洋文献聚类分析的研究与实现[D];中国海洋大学;2009年
9 赵治军;OAI-PMH中元数据相似度计算的研究与实现[D];太原科技大学;2009年
10 段建勇;现代汉语词性细分类标注研究[D];山西大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026