收藏本站
《西安电子科技大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于向量空间模型的文本分类技术研究

苏力华  
【摘要】:文本是互联网上的主要信息载体,文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。 文本分类的关键技术主要包括向量空间模型、特征项赋权、特征选取、分类器构建等,本文对这些技术作了详细介绍和深入分析。在特征赋权方面,本文在向量空间模型基础上,分析了TF-IDF权重算法的不足,提出了结合TF-IDF与类间分布信息的改进权重算法。实验结果表明改进的权重算法对分类精度有所提高。本文对几种常用的特征选取算法进行了研究比较,分析了互信息算法进行特征选取精度不高的可能原因,改进了互信息算法。实验结果表明改进的互信息算法提高了分类精度。本文考察了几种常用的分类算法,并且通过实验测试了它们的性能。结合分类算法Rocchio的特点和基于层次结构的分类理论,本文在实验中实现了基于Rocchio的层次分类方法。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
2 郭炜强;戴天;文贵华;;基于领域知识的专利自动分类[J];计算机工程;2005年23期
3 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
4 张娜;张化祥;;基于超链接和内容相关度的检索算法[J];计算机应用;2006年05期
5 杨丽华;戴齐;郭艳军;;KNN文本分类算法研究[J];微计算机信息;2006年21期
6 田正军;张鸿彦;;基于自动分类的邮件过滤系统[J];河南科学;2007年02期
7 周文霞;;现代文本分类技术研究[J];武警学院学报;2007年12期
8 朱宗乾;姬浩;杨冬民;;基于网络的ERP实施风险评价信息挖掘模型[J];计算机工程;2008年07期
9 曹建芳;王鸿斌;;基于SVM的汉语动词短语分类算法研究[J];河北北方学院学报(自然科学版);2008年02期
10 徐文海;温有奎;;一种基于TFIDF方法的中文关键词抽取算法[J];情报理论与实践;2008年02期
11 卓佳;张俊坤;李畅;;使用向量空间模型进行信息检索的实现[J];华南金融电脑;2008年10期
12 周军;;基于Web挖掘的站内搜索优化设计[J];南通航运职业技术学院学报;2009年03期
13 杜暖男;马莹莹;;搜索引擎中信息检索模型的研究[J];内江科技;2009年11期
14 陶秋香;喻金科;涂继亮;;基于向量空间模型的公文分类系统研究与实现[J];南昌航空大学学报(自然科学版);2009年04期
15 张亦辉;石冰;李新;;基于向量空间模型的中文文档预处理系统设计[J];山东科学;2010年05期
16 张荐硕;方钰;;基于向量空间模型的Web服务发现方法[J];计算机工程;2011年03期
17 盛秋艳;何文广;;一种改进的向量空间降维方法[J];黑龙江工程学院学报(自然科学版);2011年01期
18 游荣彦,邓志才,李传宏;向量空间模型中特征词的区分度的定量研究[J];中文信息学报;2002年03期
19 周必水,郦泓;用Java实现基于向量空间的搜索引擎优化[J];计算机应用研究;2003年02期
20 陈鑫;基于VSM的中文网页自动分类模型[J];晋东南师范专科学校学报;2004年02期
中国重要会议论文全文数据库 前10条
1 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年
4 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 苏贵洋;王永成;马颖华;;信息自动获取的结构模型[A];第一届学生计算语言学研讨会论文集[C];2002年
7 原福永;杨治秋;王海霞;;一种基于向量空间模型的文档聚类算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
8 林游龙;余智华;程学旗;刘悦;;虚点:一种减少特征值鸿沟的方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 廖祝华;刘建勋;易爱平;;基于用户兴趣的Web服务发现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
10 曹晶;孙铁利;杨柳;;基于概念向量空间模型的信息检索方法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
中国重要报纸全文数据库 前2条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
2 邢军;领域本体构造中数据源选取及构造方法的研究[D];大连理工大学;2008年
3 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
4 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
5 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
6 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
7 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
8 王菁;P2P系统中资源管理机制的研究[D];中国科学技术大学;2007年
9 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
2 张波;个性化Web搜索系统研究[D];燕山大学;2006年
3 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
4 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
5 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
6 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
7 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
8 赵文鹏;基于自组织特征映射的海洋文献聚类分析的研究与实现[D];中国海洋大学;2009年
9 赵治军;OAI-PMH中元数据相似度计算的研究与实现[D];太原科技大学;2009年
10 段建勇;现代汉语词性细分类标注研究[D];山西大学;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978