收藏本站
《中国科学院研究生院(文献情报中心)》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的文本分类技术研究

程军  
【摘要】: 随着互联网的发展,公众既感到信息资源十分丰富,同时又感觉想找到所需的信息相对较难。笔者认为原因之一是现有的信息系统还没有能够对信息资源进行有效的组织管理,解决此问题的途径很多,内容管理是其中之一,而文本分类则是所有基于内容的文本信息管理的基础,因此笔者在参与“中美百万册书数字图书馆”、“国家科学数字图书馆”等研究项目的同时,从理论、技术和实践三个方面对文本分类进行了深入的探讨,并采用文本分类技术来辅助解决了信息系统建设中资源服务、管理和采集方面的一些问题。 在信息资源服务方面,本文首先从理论上分析了文本检索和文本分类的关系。笔者认为“分类”与“检索”是密不可分的信息获取手段,它们之间能够互相促进、互相补充。常规检索方式中由于用户所给的查询条件很少,因此要检索出用户所需要的文档确实是非常困难的一项工作。因此,如果能充分地将文本分类技术应用到检索系统当中,能够有效提高文本检索的效果。本文在“中美百万册书的层次检索系统”中将分类体系与文本检索相结合,验证了上面的设想;在“基于内容的信息推荐系统”中将文本分类技术应用到检索中,在服务模式上为用户提供了基于内容的服务,在技术上对算法进行了研究,并构建了原型系统,理论上可以支持对一百万册书检索,并能够达到秒级响应速度。 在信息资源管理方面,由于海量信息资源的出现,采用人工方式进行管理越来越不切实际,采用计算机管理又达不到人工管理的精确程度。本文从理论方面指出了其中存在的核心问题,即常用的等级列举式分类体系与文本分类算法之间存在的矛盾:由于两者用来描述信息的数据结构不同,导致无法完美地相互结合,从而降低了分类算法的正确率,也不利于检索系统的构建。在“中英文物理网站分类系统”案例中,本文通过对分类体系和训练数据进行分析,取得了采用文本分类技术来进行信息资源管理的一些经验。 在信息资源建设方面,本文用“冗余网页过滤系统”来说明如何解决资源建设中的重复建设问题,在研究中主要针对算法的时间复杂度和空间复杂度进行了优化,找到了表达一篇文档的最优特征项个数数值,在确保正确率的基础上加快过滤速度。在“2002年TREC文本过滤比赛”案例中,对比了一般类目和组合类目在文本过滤中的不同之处,并通过此案例说明了如何将文本分类技术研究中的成果应用在实际文本过滤系统当中,并得到如下结论:只有将文本分类系统的各方面技术进行综合考虑,才能够最终取得更好的分类效果。 另外,本文还探讨了文本分类和文本检索评价指标之间的关系。在文本分类领域,有时也采用查全率和查准率作为评价指标,但更常用的是分类正确率。笔者通过例子来说明文本检索中仅仅采用查全率和查准率来评价检索系统所可能存在的问题,然后从理论上探讨了查全率、查准率和分类正确率之间的关系。 要想提高基于内容的信息服务质量,需要在技术方面从根本上提高文本分类 摘要 算法的正确率,因此本文全面研究了基于统计的自动文本分类方法,包括特征项 提取、赋权、分类器构建等问题。 l)特征提取方面主要研究了特征项降维和N元模型。为了对文档进行充分表达, 笔者对中文文本采用了多层次特征表示方法:系统通过从汉字、常用词表和专 业词表三个层次上提取文档的统计特征,从而能够更好地反映文档特征项的统 计分布规律,为提高分类正确率打下基础。 2)在特征项赋权方面,本文考察了先前的实验结果,对多种赋权方式进行了实 验,如文档频率、信息嫡、互信息和X2统计量。通过分析这些赋权方式之间的 理论矛盾和实验结果,笔者详细探讨了特征项与类别之间的关系,提出了综合 赋权方式,从多方面考虑特征项权重,并取得比单一赋权方式更好的实验结果。 3)在分类器构建方面,主要考察了三种分类器,Rocchi。、KNN和SVM。其中 KNN和SVM是公认的较好的分类器。但笔者认为Rocchi。有其自己的特点, 如能够直观地反映每个类的特征,且时间和空间复杂度都较低。在笔者的实验 当中,通过对其进行改进,并与特征选择和赋权相结合,系统的封闭测试分类 正确率可接近100%,开放测试正确率也明显提高,接近KNN和SVM算法。 本文的实验环境采用的是中国大百科全书的原文和分类体系,标准的实验数 据既减少了分类体系类目之间的交叉,又保证了文档与分类体系的相关性,从根 本上保证了实验结果的可信度。
【学位授予单位】:中国科学院研究生院(文献情报中心)
【学位级别】:博士
【学位授予年份】:2003
【分类号】:G203

【引证文献】
中国期刊全文数据库 前10条
1 谭金波;;面向网络教育资源的文本自动分类系统的设计与实现[J];中国远程教育;2009年04期
2 张成宝;王志玲;;基于层次分析法的中文文本分类系统评价[J];农业图书情报学刊;2007年12期
3 华秀丽;徐凡;王中卿;李培峰;;细粒度科技论文摘要句子分类方法[J];计算机工程;2012年14期
4 张成宝;王志玲;;基于层次分析法的中文文本分类系统评价[J];情报杂志;2007年10期
5 谭金波;;基于层次结构的网页自动分类系统的设计与实现[J];情报杂志;2009年06期
6 曹勇;吴顺祥;;使用KNN算法的中文Web文本分类技术研究[J];软件导刊;2007年01期
7 刘博;杨柳;袁方;;改进的KNN方法及其在中文文本分类中的应用[J];西华大学学报(自然科学版);2008年02期
8 苏变萍;侯筱婷;;面向政策法规数据的分类方法[J];微电子学与计算机;2008年07期
9 谭金波,李艺,杨晓江;文本自动分类的测评研究进展[J];现代图书情报技术;2005年05期
10 谭金波;杨晓江;李艺;;基于统计-规则方法的网页层次分类技术研究[J];现代图书情报技术;2007年08期
中国博士学位论文全文数据库 前3条
1 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
2 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
3 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
2 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
3 张春燕;基于自然语言处理的文本分类分析与研究[D];江西理工大学;2011年
4 林炎钟;基于决策树分类算法的Web文本分类研究[D];江苏科技大学;2011年
5 宋江;文本分类的特征选择方法研究[D];南京航空航天大学;2010年
6 杨森;民生信息多分类系统研究与设计[D];山东科技大学;2011年
7 张博;基于内容安全的中文网页过滤系统[D];西安电子科技大学;2006年
8 苏力华;基于向量空间模型的文本分类技术研究[D];西安电子科技大学;2006年
9 杨柳;中文文本分类技术研究[D];河北大学;2006年
10 黄峰;基础教育搜索引擎中的网页文档特征提取研究[D];南京师范大学;2006年
【参考文献】
中国期刊全文数据库 前9条
1 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
2 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
3 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
4 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
5 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
6 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
7 刘海涛;关于自然语言计算机处理的几点思考[J];术语标准化与信息技术;2001年01期
8 程军;智能信息处理系统的内核实现[J];图书情报工作;2002年11期
9 刘涌泉;机器翻译归根到底是个语言学问题[J];语言文字应用;1997年03期
中国博士学位论文全文数据库 前1条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
【共引文献】
中国期刊全文数据库 前10条
1 吴昌合;分类主题一体化:《中国分类主题词表》的特点[J];安徽大学学报;2000年06期
2 贺超英;黄美成;;一种基于无线通信技术的防盗系统[J];安防科技;2006年09期
3 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期
4 胡锡衡;;垃圾邮件过滤系统模型的研究与设计[J];鞍山师范学院学报;2009年02期
5 胡锡衡;;径向基函数在文本分类中的应用[J];鞍山师范学院学报;2011年02期
6 卢效峰,郑权;基于用户行为分析的搜索引擎模型[J];北方工业大学学报;2004年03期
7 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
8 符宝鼎,袁建畅,郭彩霞;基于RGB颜色模型棉花杂质的识别算法[J];北京纺织;2005年05期
9 崔彤;;图书呈缴制度及其在我国的实施[J];北京图书馆馆刊;1993年Z2期
10 侯汉清;建立以《中国分类主题词表》为核心的检索语言兼容体系[J];北京图书馆馆刊;1998年04期
中国重要会议论文全文数据库 前10条
1 戴斌;;基于粒子群优化支持向量机的过电压分层识别研究[A];2011年云南电力技术论坛论文集(入选部分)[C];2011年
2 张久珍;;近代美国公共图书馆运动的精神成果[A];第五次全国图书馆学基础理论研讨会论文集[C];2007年
3 郭敏;李学伟;;基于IA的城市新一代生产力应用架构研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
4 王墨君;齐欧;;搜索引擎中基于磁性隐喻的图形化界面交互方式[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
6 雷瑜良;杨应全;吴伟兰;;《高等教育分类主题词表》编制与特点分析[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
7 王增清;;试论图书馆价值观念的嬗变[A];新世纪的图书馆与信息服务——浙江省图书馆学会第九次学术研讨会论文集[C];2004年
8 柏桂荣;章勇;;基于RSS的用户兴趣模型研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
9 刘代志;吴晓露;李夕海;;核爆地震识别技术回顾与展望[A];国家安全地球物理丛书(三)——地球物理探测与应用[C];2007年
10 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 范兴坤;中国大陆地区图书馆事业政策研究(1978-2008)[D];南京大学;2010年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
4 殷俊;子空间特征提取及生物特征识别应用[D];南京理工大学;2011年
5 姜永静;指数矩及其在模式识别中的应用[D];北京邮电大学;2011年
6 刘松华;核矩阵低秩分解与核空间信息能度量研究及应用[D];西安电子科技大学;2011年
7 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
8 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
9 谢宜学;民营医院医疗虚拟团队的组织管理研究[D];天津大学;2011年
10 浑洁絮;基于语义语言的英汉机器翻译研究[D];大连理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 贺丽;基于改进ART2网络的变压器故障诊断方法[D];长沙理工大学;2010年
2 彭原;新形势下大学生思想政治教育的有效拓展[D];合肥工业大学;2010年
3 郭浩;基于信号注入的配电网单相接地故障定位研究[D];河南理工大学;2010年
4 涂传唐;基于行为识别的反垃圾邮件技术的探讨[D];华东师范大学;2010年
5 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
6 杨冰;基于判别公共矢量的模式识别技术及其应用研究[D];江南大学;2010年
7 周志辉;基于用户兴趣模型的个性化搜索引擎研究与分析[D];江西理工大学;2010年
8 石伟栋;精确制导中目标识别与跟踪的应用研究[D];北京交通大学;2011年
9 沈益舒;搜索语句的时间属性研究及其在检索排序中的应用[D];浙江大学;2011年
10 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 朱明星,张德龙;RBF网络基函数中心选取算法的研究[J];安徽大学学报(自然科学版);2000年01期
2 叶良艳;;基于改进后的K-means聚类算法的网吧用户行为聚类[J];安徽科技学院学报;2009年04期
3 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
4 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
5 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
6 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
7 李卫东;宋威;李欣;杨炳儒;;一种多标准决策树剪枝方法及其在入侵检测中的应用[J];北京科技大学学报;2007年04期
8 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
9 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
10 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
中国重要会议论文全文数据库 前3条
1 李正学;吴微;;引入技术指标的BP网络在沪市综合指数涨跌预测中的应用[A];Data Analysis, Econo-physics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年
2 丁江伟;刘挺;卢志茂;李生;;隐马尔可夫模型和贝叶斯模型词义消歧对比研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 张宇;刘挺;高立琦;车万翔;朱传靖;;基于常问问题集的在线客服实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
3 范昕炜;支持向量机算法的研究及其应用[D];浙江大学;2003年
4 杨旭华;神经网络及其在控制中的应用研究[D];浙江大学;2004年
5 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
6 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
7 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
8 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
9 邵郅邛;连续感知器学习算法的有限收敛性及连续距离转换神经网络[D];大连理工大学;2005年
10 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 熊志君;Android在高校学生信息服务系统中的应用研究[D];南昌大学;2010年
2 张岚岚;新浪微博的网络舆情分析研究[D];华东师范大学;2011年
3 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
4 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
5 杨昂;文本分类算法研究[D];湖南大学;2002年
6 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
7 边后琴;基于支持向量的径向基函数神经网络的训练算法[D];武汉科技大学;2002年
8 柳枫;基于统计的数据挖掘技术在CRM系统中的应用研究[D];大连理工大学;2003年
9 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
10 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
【二级引证文献】
中国期刊全文数据库 前10条
1 梁好;徐长庚;林和平;;实用高效的垃圾邮件过滤算法[J];吉林大学学报(信息科学版);2010年03期
2 宋春桥;游松财;柯灵红;;面向发生的地学数据分类方案及其元数据扩展研究[J];地理信息世界;2010年04期
3 谭金波;;基于规则的网络教育资源分类技术研究[J];中国远程教育;2010年03期
4 童亚拉;彭江;;群智能在网络舆情热点发现及研判机制中的应用分析[J];电脑学习;2010年04期
5 刘锋;白凡;;一种改进的K近邻算法在网页分类中的应用[J];电子技术;2010年07期
6 庄新妍;;计算机中文分词技术的应用[J];呼伦贝尔学院学报;2010年03期
7 黄家裕;刘连芳;;基于多质心的不良文本快速过滤方法[J];广西科学院学报;2010年04期
8 余素雅;;基于前向对向传播神经网络的信息检索技术研究[J];电子设计工程;2012年19期
9 邹丽娜;凌捷;;一种基于特征提取的二级文本分类方法[J];广东工业大学学报;2012年04期
10 许星;席鹏富;秦天;;社会网络的舆情信息分析与可视化——以新浪微博为例[J];计算机光盘软件与应用;2013年12期
中国博士学位论文全文数据库 前9条
1 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
2 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
3 储节旺;企业应对危机的知识管理问题研究:能力、体系、机制与技术[D];南昌大学;2006年
4 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
5 许红;基于超声波的聚合物熔体物性关键参数测量方法的研究[D];北京化工大学;2012年
6 许静;面向模块化产品平台的技术对象有序化及重用技术研究[D];浙江大学;2011年
7 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
8 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
9 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
3 杨克强;LVQ神经网络在齿轮箱故障诊断中的研究[D];安徽农业大学;2010年
4 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
5 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
6 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
7 梁越岭;互联网舆情信息挖掘与群体行为分析[D];武汉理工大学;2010年
8 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
9 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
10 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 张琪玉;缺乏抽词词典是自动抽词标引难以普及的主要原因[J];图书与情报;1998年02期
3 常宝儒;关于《现代汉语频率词典》的编纂问题[J];辞书研究;1986年04期
4 赵晓芳,刘欣,徐志伟;网络交通自相似特性的分析及应用——具有单一登录点的机群网络服务器的性能评测[J];计算机研究与发展;1999年09期
5 王成耀;;大型专家系统设计考虑[J];计算机科学;1990年04期
6 王士强,龚忠武,陈次白;英语自动标引的理论与实践[J];江苏图书馆学报;1996年06期
7 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
8 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
9 李粟,陈永明;汉语句法分析的交互激活竞争模型[J];中文信息学报;1992年04期
10 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
中国博士学位论文全文数据库 前1条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
【相似文献】
中国期刊全文数据库 前10条
1 高洁,吉根林;文本分类技术研究[J];计算机应用研究;2004年07期
2 薛燕波;WEB文本分类技术在企业竞争情报分析中的应用[J];情报科学;2004年03期
3 李国栋,李卫;基于文本分类技术的垃圾邮件识别系统[J];微电子学与计算机;2004年06期
4 王汉萍,孟庆春,张继军,李占斌,殷波;基于粗糙集的文本自动分类方法的研究[J];信息技术;2003年08期
5 王涛,孙河山;Web挖掘技术在搜索引擎中的应用[J];情报理论与实践;2002年04期
6 孟庆春,王汉萍,魏天滨,葛艳,高云;一种基于粗糙集的文本分类规则抽取方法[J];青岛海洋大学学报(自然科学版);2003年06期
7 李淑文;试论文本自动分类[J];现代计算机;2004年07期
8 程美群,陈能华;高校信息资源专业搜索引擎建设探讨[J];情报科学;2004年02期
9 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
10 孙建涛,沈抖,陆玉昌,石纯一;网页分类技术[J];清华大学学报(自然科学版);2004年01期
中国博士学位论文全文数据库 前1条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前5条
1 熊大康;中文短文本分类技术的研究与实现[D];安徽大学;2014年
2 陈乐;基于智能文本分类技术的素材管理软件的设计与开发[D];南京师范大学;2003年
3 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
4 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
5 张利军;数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D];西北工业大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026