收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于扩展的VSM中文文本分类方法

井志强  
【摘要】:随着因特网的迅猛发展,作为网络主要资源的文本信息也在高速增长。如何有效组织和管理这些信息,并快速、准确、全面的从中找到用户所需要的信息是当前信息科学和技术领域面临的重要问题。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,帮助人们准确高效的定位信息和分流信息,因此具有广泛的应用前景。 文本自动分类最常用的方法是基于向量空间模型。通常采用关键词作为向量构建向量空间模型。早期研究是基于知识的,通过人工建立分类规则确定特征项,随着统计机器学习理论和统计自然语言处理技术的发展,使用机器学习的方法确定特征项得到应用,并取得了良好的效果。可是由于受到训练语料库资源和训练时间的限制,机器学习能力也有局限性。有很多对类别有贡献的特征项,通过常规的机器学习是得不到的。用这样的特征向量集生成的向量空间模型在进行文本分类时就不会达到满意的效果,所以机器学习生成的向量空间模型是需要重新构造的。 本文提出了一种基于扩展空间向量模型(VSM)的方法用于中文文本分类。该方法对每类文本特征项进行分析,并通过合适的规则抽取了最能代表主题的特征义原,然后用Hownet对这些特征义原扩展,并赋予扩展的特征项适当权值来说明其描述能力。接着联合同义词典将原始向量空间模型,和扩展的向量空间模型融合成新的特征向量空间。最后选择合适的分类器用重构的VSM模型进行分类。本文重点研究了抽取特征义原,设定特征项合适的权值和重构向量空间模型方法。实验表明,该方法能增加有效的向量空间维数,使分类正确率和稳定性均得到提高。最后对论文进行了总结和展望,指出基于扩展VSM的文本分类尚需研究和改进的问题。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 张严月;;基于SVM金融分析报告的行业分类研究[J];现代计算机(专业版);2012年22期
中国硕士学位论文全文数据库 前1条
1 朱玉平;基于P2P网络的资源搜索算法的研究[D];山东师范大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
2 胡荣;罗庆云;;SVM算法在文本分类中的研究[J];衡阳师范学院学报;2006年03期
3 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
4 李莼,罗振声,厉宇航;基于语义相关和概念相关的自动分类方法研究[J];计算机工程与应用;2003年12期
5 夏天;;汉语词语语义相似度计算研究[J];计算机工程;2007年06期
6 贾可亮;樊孝忠;张禹;;基于HowNet语义相似度的FAQ研究[J];计算机应用;2007年09期
7 寇苏玲;蔡庆生;;中文文本分类中的特征选择研究[J];计算机仿真;2007年03期
8 王强;;决策树在文本分类中的应用[J];科技情报开发与经济;2007年17期
9 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
10 廖莎莎;江铭虎;;中文文本分类中基于概念屏蔽层的特征提取方法[J];中文信息学报;2006年03期
中国硕士学位论文全文数据库 前4条
1 叶志刚;SVM在文本分类中的应用[D];哈尔滨工程大学;2006年
2 翁金象;中文文本分类研究[D];山东大学;2007年
3 何元娇;基于本体的语义文本分类研究[D];北京化工大学;2008年
4 王贤川;基于知网的文本分类算法研究及应用[D];江苏大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 吴娜炯;;格语法在主观题自动阅卷中的应用[J];办公自动化;2010年08期
2 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
3 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
4 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
5 陈康;樊孝忠;刘杰;贾可亮;;基于问句语义表征的中文问句相似度计算方法[J];北京理工大学学报;2007年12期
6 李园白;崔蒙;杨阳;朱晓博;;证候相似性比较方法研究[J];中华中医药杂志;2012年02期
7 蒋溢;丁优;熊安萍;王化晶;;一种基于知网的词汇语义相似度改进计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
8 朱颢东;周姝;钟勇;;结合ODF和辨识集的特征选择[J];重庆邮电大学学报(自然科学版);2010年01期
9 官连军;丁光耀;张燕妮;;支持多种模糊处理的英文智能预提示输入引擎[J];成都信息工程学院学报;2012年02期
10 王常亮;闫利华;吴曦德;;基于XML的智能答疑系统研究[J];赤峰学院学报(自然科学版);2008年09期
中国重要会议论文全文数据库 前10条
1 李红霞;袁晓芳;田水承;王莉;;基于义类词典的煤矿瓦斯爆炸案例推理系统研究[A];中国职业安全健康协会2008年学术年会论文集[C];2008年
2 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
3 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
5 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 余晓峰;刘鹏远;赵铁军;;一种基于《知网》的汉语词语词义消歧方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 王红玲;吕强;徐瑞;;一种基于知网的中文语义相关度计算模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 崔磊;陈清才;郭鸿志;王晓龙;;HowNet与维基百科知识融合中的义类属性自动构建方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
3 眭新光;文本信息隐藏及分析技术研究[D];解放军信息工程大学;2007年
4 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
5 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
6 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
7 李园白;中医医案文献特殊性评价方法研究[D];中国中医科学院;2010年
8 赵威;电网数据中心的数据安全问题研究[D];燕山大学;2011年
9 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
10 邵世维;基于几何特征的多尺度矢量面状实体匹配方法研究与应用[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
3 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
4 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
5 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
6 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
7 朴红吉;基于分布式多索引融合的专利信息检索研究[D];大连理工大学;2010年
8 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
9 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
10 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 朱桂明;金士尧;郭得科;;IPSBSAR:一种基于熟人关系的增量式P2P搜索算法[J];计算机研究与发展;2009年08期
2 于婧;汪斌强;;SSON:一种基于结构化P2P网络路由的语义覆盖网络结构[J];计算机科学;2007年06期
3 钱宁;吴国新;;无结构化P2P网络资源搜索机制研究综述[J];计算机科学;2010年04期
4 凌波;周水庚;周傲英;;P2P信息检索系统的查询结果排序与合并策略[J];计算机学报;2007年03期
5 王志晓;张大陆;刘雷;姚传茂;;基于本体的P2P复杂搜索[J];计算机应用;2007年04期
6 王丽莉;孙波;肖永康;朱小明;;结构化P2P资源搜索算法研究综述[J];计算机应用研究;2009年10期
7 姜旭;张波;;采用RDF的查询扩展研究[J];计算机应用与软件;2011年12期
8 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
9 何盈捷,王珊,杜小勇;纯Peer to Peer环境下有效的Top-k查询[J];软件学报;2005年04期
10 张欣璐;刘广钟;;无结构对等网络资源搜索算法[J];上海海事大学学报;2008年02期
中国重要报纸全文数据库 前1条
1 服务业统计司 孟庆欣 王群英;[N];中国信息报;2011年
中国博士学位论文全文数据库 前4条
1 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
2 王菁;P2P系统中资源管理机制的研究[D];中国科学技术大学;2007年
3 王向辉;P2P网络拓扑结构研究[D];哈尔滨工程大学;2008年
4 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
2 刘杰;基于Chord与语义融合的P2P搜索技术研究[D];哈尔滨理工大学;2010年
3 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
4 王焱;基于P2P网络的资源搜索方法研究及其在远程教育系统中的应用[D];湖北工业大学;2011年
5 李杨;基于Chord的P2P搜索模型研究与改进[D];西安电子科技大学;2011年
6 张静;无结构P2P网络搜索策略的研究[D];南京邮电大学;2011年
7 徐传运;基于主题相关的P2P全文搜索引擎的研究[D];重庆大学;2006年
8 侯洁;P2P网络搜索算法研究[D];天津师范大学;2008年
9 张学魁;基于DHT的P2P网络路由算法的研究[D];西华大学;2008年
10 刘杰;CSL-P2P:一种拓扑适配的P2P网络模型[D];河南大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
2 张剑飞;数据挖掘中决策树分类方法研究[J];长春师范学院学报;2005年02期
3 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
4 朱靖波,陈文亮;基于领域知识的文本分类[J];东北大学学报;2005年08期
5 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
6 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
7 刘亚军,徐易;一种基于加权语义相似度模型的自动问答系统[J];东南大学学报(自然科学版);2004年05期
8 郭玉琴;袁方;刘海博;;基于模糊分类规则树的文本分类(英文)[J];Journal of Southeast University(English Edition);2008年03期
9 张博锋;白冰;苏金树;;基于自训练EM算法的半监督文本分类[J];国防科技大学学报;2007年06期
10 王广正;王喜凤;;基于知网语义相关度计算的词义消歧方法[J];安徽工业大学学报(自然科学版);2008年01期
中国重要会议论文全文数据库 前1条
1 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前2条
1 王晓晔;时间序列数据挖掘中相似性和趋势预测的研究[D];天津大学;2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前4条
1 王晓庆;基于RBF网络的文本自动分类的研究[D];江西师范大学;2003年
2 张滨;中文文档分类技术研究[D];武汉大学;2004年
3 闫蓉;基于语义的汉语词义消歧方法研究[D];西北大学;2006年
4 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
【相似文献】
中国期刊全文数据库 前10条
1 朱志宁;万小容;黄青松;;一种改进的基于信噪比的文本分类方法[J];宁波广播电视大学学报;2005年04期
2 朱斐;刁红军;吕强;;一种富文本分类方法的设计和实现[J];计算机应用与软件;2007年12期
3 台德艺;谢飞;胡学钢;;新的基于簇划分文本分类方法[J];计算机工程与设计;2009年06期
4 杨林波;王士同;;基于类别分布特征的快速文本分类方法[J];计算机工程与设计;2009年05期
5 李鑫;张黎烁;;文本分类方法比较研究[J];光盘技术;2009年05期
6 秦玉平;陈一荻;王春立;王秀坤;;一种新的兼类文本分类方法[J];计算机科学;2011年11期
7 杨鸿骏;周亚建;郭玉翠;;一种基于同义词扩展的不平衡文本分类方法[J];情报杂志;2013年09期
8 吴志峰,田学东;基于概念的文本分类中的人名、地名处理研究[J];微机发展;2005年03期
9 邓擘;樊孝忠;杨立公;;基于统计分布与集合论的文本分类方法[J];北京理工大学学报;2006年07期
10 张玉芳;陈剑敏;熊忠阳;;一种改进的贝叶斯文本分类方法[J];广西师范大学学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前9条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 姚天昉;彭思崴;;汉语主客观文本分类方法的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 李月伦;李湘;常宝宝;袁毓林;;一种基于认知情景框架的文本分类方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 宋鑫颖;周志逵;;一种基于SVM的主动学习文本分类方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 卢娇丽;郑家恒;;基于粗糙集的文本分类方法研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
9 张政;周水庚;周傲英;;一种新的基于kNN和Rocchio的文本分类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国硕士学位论文全文数据库 前10条
1 李萍;基于改进词语权重的文本分类方法研究[D];东北师范大学;2010年
2 朱斐;一种富文本分类方法的研究与实现[D];苏州大学;2006年
3 王燕霞;基于相关主题模型的文本分类方法研究[D];苏州大学;2010年
4 张建兴;一种提取类核的快速文本分类方法[D];兰州理工大学;2010年
5 陈林;独立于语种的文本分类方法[D];重庆大学;2007年
6 许人升;基于意群的文本分类方法研究[D];北京化工大学;2011年
7 李静;基于引力场模型的文本分类方法[D];重庆大学;2012年
8 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
9 初冲;适用于手机取证的中文短文本分类方法研究与实现[D];北京化工大学;2012年
10 常娟;短文本分类方法研究[D];复旦大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026