收藏本站
《东北大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于潜在语义索引的文本分类技术的研究

全德  
【摘要】:在过去的十几年中,将文本自动地归于事先定义好的类别的技术获得了长足发展,这主要是因为以数字形式存储的文档的数目急剧增长,引起了将它们进行有效组织以便于利用的需求。这一过程主要是用机器学习的方法,在事先构造的训练语料上学习各个类别的特征,自动构建出一个分类器。 传统的文本分类方法都是用词作为特征来构建的,而用词来表示文本的特征虽然简单直观,但有其固有的局限性,主要有包含的类别信息太少,维数过高从而造成数据稀疏等两个问题。用特征串作为类别特征可以在一定程度上解决第一个问题,但又会进一步加剧数据稀疏问题。对第二个问题的解决方法一般是进行降维,去掉一些对分类结果没有影响或影响很小的特征,用剩余的特征来表示文本。根据结果特征的特点,降维方法可以分为(1)特征提取:结果是原始特征的子集;(2)特征抽取:结果不是原始特征的子集。潜在语义索引是一种特征抽取的方法,它可以将特征从词空间映射到语义空间,同时解决这两个问题。 潜在语义索引能够预知查询中真正“暗含”的查询项和可以应用到文本中的潜在语义关系,它能从原始的特征中提取出正交基,这些正交基的数目比原始的特征数目要少很多,并且可以用它们来表示原始的特征,这样就将原来的高维空间压缩到低维的特征空间去,一般称之为语义空间。 传统的用来进行潜在语义索引的方法是奇异值分解,它的效果很好,但运算速率慢,转换后的矩阵是三个双精度的稠密矩阵,所需的存储空间太大。另一种方法是半离散矩阵分解,它的运算速度很快,转换后的矩阵是两个可以用0、1和-1来表示的矩阵和一个单精度的对角矩阵,所需要的存储空间大大降低,但这种方法的效果有所下降。 本文主要研究了把潜在语义索引用于文本分类的效果,对可能产生影响的因素进行分析,主要考查了不同的特征选取方法和权重计算方案对潜在语义索引的影响。我们还提出了一个潜在语义索引的改进模型,这个模型对提高半离散矩阵分解的效果有很明显的作用。 我们在中英文两个不同的语料上进行了试验,用KNN的方法来构造分类器。试验结果表明,特征选取方法和权重计算方案都对分类效果有明显的影响,但不同的语料需要不同的方法,没有哪一种方法适用于所有的情况。试验
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前9条
1 邹圣容;基于方证的症状与证素关系的量化分析研究[D];成都中医药大学;2010年
2 买买提依明·哈斯木;基于后缀树的维吾尔文网页聚类算法的设计与实现[D];新疆大学;2011年
3 陶凤莉;基于关键词扩展的智能模糊查询算法的研究[D];燕山大学;2011年
4 孙玉婷;基于概率主题模型的中文话题检测与追踪研究[D];华中科技大学;2010年
5 翟琳琳;基于潜在语义分析的智能检索系统[D];上海师范大学;2007年
6 李媛媛;基于潜在语义索引的中文文本检索研究[D];西南交通大学;2008年
7 蔡嘉诚;潜在语义索引技术在知识产权专家库中的研究与应用[D];苏州大学;2010年
8 连慧平;基于本体的语义索引策略研究[D];曲阜师范大学;2010年
9 黄霞;基于本体的图像检索数据库的关键技术研究[D];中南大学;2012年
【参考文献】
中国期刊全文数据库 前1条
1 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报;2000年05期
【共引文献】
中国期刊全文数据库 前10条
1 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
2 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
3 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
4 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
5 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
6 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
7 刘光远;董立岩;苑森淼;李永丽;刘辉;;基于位差的属性选择算法[J];吉林大学学报(信息科学版);2007年01期
8 李宁;徐虹;;基于文本分类的语义平滑在语言模型中的应用(英文)[J];成都信息工程学院学报;2008年03期
9 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
10 廖一星;潘雪增;;文本分类中基于逆云模型的特征选择方法[J];大连海事大学学报;2011年04期
中国重要会议论文全文数据库 前10条
1 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
2 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 朱艳辉;王平;周咏梅;;一种基于Agent的中文Web信息自动检索系统(英文)[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
5 ;Spherical Credibilistic Clustering Algorithm for Text Data[A];第一届中国智能计算大会论文集[C];2007年
6 ;Obtaining Profiles Based on Localized Non-negative Matrix Factorization[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
7 梁飞;吕洪波;姚锦峰;;舆情分析中语料库降维[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
9 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
3 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
4 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
5 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
6 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
7 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
8 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
9 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
10 陈文清;基于免疫机理的水泥生产工艺故障智能诊断方法研究[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
4 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
5 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
6 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
7 孔健;基于半监督学习的社团划分算法研究[D];辽宁师范大学;2010年
8 卢加磊;半监督学习中协同训练与多视图方法的比较及改进[D];中国海洋大学;2010年
9 熊超;基于潜在语义对偶空间的跨语言文本分类研究[D];江西师范大学;2010年
10 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李冬华,何裕民;子宫肌瘤患者症、证特点的研究[J];中国医药学报;2004年09期
2 马玉平;王天芳;薛晓琳;刘燕玲;何跃华;杜彩凤;李雪;;肝郁脾虚证的症状特点及辨证标准的现代文献研究[J];中华中医药杂志;2006年02期
3 邹世洁;陈小野;;大鼠CAG证病结合模型的宏观症征观察[J];长春中医药大学学报;2007年05期
4 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期
5 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
6 陈利国;刘忠民;;搜索引擎的工作原理和发展趋势[J];电脑知识与技术(学术交流);2007年23期
7 刘震;邓苏;罗雪山;黄宏斌;;语义对等网中资源元数据混合索引策略研究[J];国防科技大学学报;2006年06期
8 顿毅杰;张小峰;孙昊;赵丽;;一种基于粒度的规则挖掘方法[J];兰州理工大学学报;2006年01期
9 陈建秋,邓飞其,刘发贵;智能化搜索引擎分析与探讨[J];广州大学学报(自然科学版);2002年03期
10 程刚;;一种基于形状的图像相似性检索方法[J];合肥工业大学学报(自然科学版);2007年02期
中国博士学位论文全文数据库 前5条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
5 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 乔冬梅;搜索引擎现状与发展研究[D];郑州大学;2002年
2 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
3 张兰轩;基于潜在语义分析的大学概况中文问答系统[D];大连理工大学;2004年
4 贺扬;基于潜在语义索引模型的查询语义扩展模型[D];西南交通大学;2004年
5 陈鑫;中文智能搜索引擎[D];四川大学;2004年
6 贺瑞芳;基于内容的教学资源搜索引擎研究[D];东北师范大学;2005年
7 赵慧;基于.NET平台的智能答疑系统的研究与实现[D];江苏大学;2005年
8 卢健;潜在语义分析在文本信息检索中的应用研究[D];华中科技大学;2005年
9 盛俊;潜在语义的Markov网络检索模型的研究[D];江西师范大学;2006年
10 杨哲;提高信息检索性能的有效机制与算法研究[D];中国科学院研究生院(计算技术研究所);2004年
【二级引证文献】
中国期刊全文数据库 前1条
1 宋涛;施水才;房祥;吕学强;;基于改进的潜在语义分析的文本聚类[J];北京信息科技大学学报(自然科学版);2012年03期
中国博士学位论文全文数据库 前1条
1 翟延冬;基于WordNet的短文本语义网挖掘算法研究[D];吉林大学;2012年
中国硕士学位论文全文数据库 前10条
1 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
2 邹圣容;基于方证的症状与证素关系的量化分析研究[D];成都中医药大学;2010年
3 鲍光余;基于潜在语义分析的农户个性化推荐系统[D];海南大学;2011年
4 田姗;基于web模式的教学管理系统的设计与开发[D];山东大学;2011年
5 陆洋;基于语义分析的文本挖掘研究[D];浙江工业大学;2012年
6 何媛媛;基于潜在语义分析的多网页自动文摘研究[D];上海师范大学;2008年
7 孙逸飞;半自动本体构建方法研究[D];吉林大学;2009年
8 张东娜;基于WordNet的短文本语义相似性计算研究[D];吉林大学;2010年
9 蔡嘉诚;潜在语义索引技术在知识产权专家库中的研究与应用[D];苏州大学;2010年
10 连慧平;基于本体的语义索引策略研究[D];曲阜师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前2条
1 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
2 刘开瑛,薛翠芳,郑家恒,周晓强;中文文本中抽取特征信息的区域与技术[J];中文信息学报;1998年02期
【相似文献】
中国期刊全文数据库 前10条
1 伍建军;康耀红;;潜在语义索引在文本分类中的应用[J];电脑与信息技术;2006年05期
2 朱学昊;王儒敬;;隐含语义索引技术在供求信息分类中的应用[J];计算机工程与应用;2007年14期
3 王燕霞;邓伟;;基于级连神经网络和SVD的文本分类新模型[J];计算机工程与应用;2010年26期
4 刘海峰;王元元;张学仁;刘守生;;文本分类中一种基于正交变换的特征降维方法[J];计算机科学;2008年05期
5 张秋余;刘洋;;使用基于SVM的局部潜在语义索引进行文本分类[J];计算机应用;2007年06期
6 杨清;李方敏;;基于LSI和SVM分类法的定题邮件过滤研究[J];计算机工程与应用;2006年35期
7 林鸿飞;基于示例的文本标题分类机制[J];计算机研究与发展;2001年09期
8 甄志龙;曾晓勤;韩立新;;文本分类中基于图模型的特征提取方法[J];情报科学;2011年08期
9 王天江,叶卫国,卢正鼎,李永平;LSI和kNN相结合的文本分类模型研究[J];华中科技大学学报(自然科学版);2004年04期
10 冯霞;闫冠男;李娟娟;;一种基于潜在语义索引的谱聚类方法研究[J];中国民航大学学报;2011年03期
中国重要会议论文全文数据库 前10条
1 郑伟;季铎;蔡东风;;潜在语义索引中特征优化技术的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 薛永刚;朱靖波;魏刚;;基于核主成分分析的文本分类[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
8 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 米晓芳;秦洋;王立宏;宋宜斌;;基于潜在语义差异的医学网页分类[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
10 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国重要报纸全文数据库 前6条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
3 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
4 希安;微软试水信息检索[N];经济日报;2004年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 应晓敏 窦文华;技术架构[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 从飞云;基于滑移向量序列奇异值分解的滚动轴承故障诊断研究[D];上海交通大学;2012年
6 赵艳菊;强噪声背景下机械设备微弱信号的提取与检测技术研究[D];天津大学;2009年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
9 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
10 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 全德;基于潜在语义索引的文本分类技术的研究[D];东北大学;2005年
2 姜丽丽;基于潜在语义索引和支持向量机的文本分类过滤技术研究[D];大庆石油学院;2010年
3 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
4 黄海英;基于概念空间的文本分类的应用研究[D];广西师范大学;2002年
5 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
6 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
7 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
8 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
9 闫晨;KNN文本分类研究[D];燕山大学;2010年
10 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026