收藏本站
《西安电子科技大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本自动分类的研究与实现

都云琪  
【摘要】:文本分类可以为文本提供有序的组织,网络信息的增长使文本分类对于信息处理的意义变得更加重要。本文讨论了基于词典分词和基于n-gram信息提取的两种中文文本特征获取方法,提出了将两者相结合的方法,为分类系统提供更多类型的文本特征,从而达到提高分类性能的目的;并进一步研究了冗余特征对于文本分类系统的影响,结果发现,冗余特征对于文本具有良好的表示作用,由此得出结论:基于统计的文本分类的本质是一种对文本字符特征的识别,因此,在提取文本特征时,无需过分追求语义特征的提取;最后,在详细分析了文本学习及支持向量机学习算法的特点之后,提出了一种利用训练集中的拒识样本信息对分类器输出进行改进的方法,提高了系统的分类性能。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前3条
1 杨晓懿,刘嘉勇,陈淑敏;SVM在文本自动分类中的应用[J];成都信息工程学院学报;2005年02期
2 倪茂树;赵晶;林鸿飞;;生物医学文本分类方法比较研究[J];计算机工程与应用;2007年12期
3 王宏生;高岩;;基于本体的信息过滤研究[J];科技信息;2009年29期
中国重要会议论文全文数据库 前1条
1 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
中国博士学位论文全文数据库 前1条
1 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
中国硕士学位论文全文数据库 前10条
1 李兆雄;基于图模型的中文小样本文本分类研究[D];西安电子科技大学;2009年
2 郑伟;基于类别均衡的文本分类算法研究[D];西安电子科技大学;2006年
3 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
4 石佑红;基于支持向量机的文本分类的研究[D];北京交通大学;2007年
5 周振龙;支持向量机理论在文本分类中的应用研究[D];兰州理工大学;2007年
6 张桂林;中文文本自动分类系统的研究与实现[D];吉林大学;2007年
7 程克敏;基于文本结构和内容的中文论文复制检测系统研究[D];合肥工业大学;2007年
8 黄臻臻;基于体裁的中文网页分类[D];华侨大学;2007年
9 江飞;基于内容的过滤技术研究及其在隔离网闸中的应用[D];解放军信息工程大学;2007年
10 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年
【参考文献】
中国期刊全文数据库 前2条
1 周水庚,关佶红,俞红奇,胡运发;基于Ngram信息的中文文档分类研究[J];中文信息学报;2001年01期
2 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
【共引文献】
中国期刊全文数据库 前10条
1 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
2 檀林,张永奎;一种基于迭代学习的文本分类器构造方法[J];电脑开发与应用;2004年02期
3 周水庚,关佶红,胡运发;无需词典支持和切词处理的中文文档分类[J];高技术通讯;2001年03期
4 何伟;胡学钢;谢飞;;基于张量空间模型的中文文本分类[J];合肥工业大学学报(自然科学版);2010年12期
5 章兰,杨季文,江浩;基于VSM模型的动态文本分类器的设计[J];河海大学常州分校学报;2004年02期
6 陈勤,张国煊,王小华;文本自动模糊分类方法的研究[J];杭州电子工业学院学报;1999年04期
7 王小华,张国煊,陆蓓;文本分类系统的评价因素探讨[J];杭州电子工业学院学报;2002年03期
8 陈勤,张国煊,王小华,陆蓓,赵葆华;基于模糊模式识别的文本自动分类法研究[J];浙江大学学报(理学版);2000年03期
9 杜长海;吉根林;;模糊聚类在中文文本分类中的应用研究[J];计算机工程与应用;2006年08期
10 何涛;黄国兴;;一种无需语句分割的中文文档自动分类方法研究及实现[J];计算机科学;2004年12期
中国重要会议论文全文数据库 前4条
1 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
3 张阳;李战怀;卢维扬;;通过弱化朴素贝叶斯假设提高朴素贝叶斯文本分类器的性能[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
2 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 吴翔;产品4D信息模型的基础技术研究[D];武汉理工大学;2005年
6 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
7 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
8 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
9 吴科;基于机器学习的文本分类研究[D];上海交通大学;2008年
10 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
3 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
4 伍红亮;基于最小风险的贝叶斯邮件过滤算法研究[D];华南理工大学;2010年
5 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
6 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
7 荣建文;基于RS-SVM的Web中文文本自动分类研究[D];东北财经大学;2010年
8 刘继勇;网络舆情预警辅助决策支持系统模型及关键技术研究[D];石家庄经济学院;2010年
9 刘超;基于主题挖掘和覆盖的文本分类研究[D];安徽大学;2011年
10 周婷;异构信息源的领域人物信息抽取研究[D];哈尔滨工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 刘汝杰,李华胜,袁保宗;基于自适应权值的多分类器融合方法[J];北方交通大学学报;2001年02期
2 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
3 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
4 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
5 明均仁;张帆;;网络文本信息过滤的意义及其模型初探[J];图书与情报;2007年04期
6 韩啸,曹辉;内容管理的关键技术[J];中国传媒科技;2004年05期
7 张煜东;霍元铠;吴乐南;董正超;;降维技术与方法综述[J];四川兵工学报;2010年10期
8 刘辉;邵良杉;;Web文本分类中特征项权重的研究[J];科技和产业;2010年02期
9 张俐,李晶皎,胡明涵,姚天顺;中文WordNet的研究及实现[J];东北大学学报;2003年04期
10 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
中国重要会议论文全文数据库 前1条
1 李正学;吴微;;引入技术指标的BP网络在沪市综合指数涨跌预测中的应用[A];Data Analysis, Econo-physics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年
中国博士学位论文全文数据库 前10条
1 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
2 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 杨旭华;神经网络及其在控制中的应用研究[D];浙江大学;2004年
5 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
6 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
7 邵郅邛;连续感知器学习算法的有限收敛性及连续距离转换神经网络[D];大连理工大学;2005年
8 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
9 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
10 张持健;商空间下模糊系统与模糊控制的问题求解[D];安徽大学;2005年
中国硕士学位论文全文数据库 前10条
1 张青;中文垃圾邮件过滤技术研究[D];武汉理工大学;2011年
2 杨慧娟;基于语义体与模糊聚类的中文垃圾邮件过滤方法研究[D];兰州理工大学;2011年
3 唐凌志;基于语义理解的论文相似度研究[D];湘潭大学;2011年
4 楼佳;中文文本聚类的评价与改进研究[D];杭州电子科技大学;2009年
5 查贵庭;经济新闻自动标引系统的研究[D];南京农业大学;2000年
6 沈培华;支持矢量机的算法研究和应用[D];南京理工大学;2002年
7 杨昂;文本分类算法研究[D];湖南大学;2002年
8 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
9 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
10 樊建聪;使用贝叶斯方法的数据挖掘及应用研究[D];山东科技大学;2003年
【二级引证文献】
中国期刊全文数据库 前10条
1 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期
2 周民;邱雅;王华彬;;网络舆情分析中智能爬虫的设计[J];电脑知识与技术;2011年33期
3 余素雅;;基于前向对向传播神经网络的信息检索技术研究[J];电子设计工程;2012年19期
4 王燕霞;邓伟;;基于级连神经网络和SVD的文本分类新模型[J];计算机工程与应用;2010年26期
5 聂规划;付志超;陈冬林;刘平峰;;基于本体的论文复制检测系统[J];计算机工程;2009年06期
6 方志龙;;文本特征选择算法MI的改进[J];计算机与现代化;2011年07期
7 李智才;马文瑞;李素敏;张瑞兰;张红雨;;支持向量机在短期气候预测中的应用[J];气象;2006年05期
8 张铃;吴涛;周瑛;张燕平;;覆盖算法的概率模型[J];软件学报;2007年11期
9 黄利斌;寇雅楠;;基于依存句法的网页内容防火墙设计[J];计算机工程与设计;2011年05期
10 陈忆金;曹树金;陈少驰;陈珏静;;网络舆情信息监测研究进展[J];图书情报知识;2011年06期
中国重要会议论文全文数据库 前1条
1 孙燕;任廷革;;SVM方法在《伤寒论》方分类识别中的应用[A];仲景医学求真(续二)——中华中医药学会第十六届仲景学说学术研讨会论文集[C];2008年
中国博士学位论文全文数据库 前5条
1 郑立斌;联合式制造资源发现与集成方法的研究[D];江苏大学;2011年
2 储节旺;企业应对危机的知识管理问题研究:能力、体系、机制与技术[D];南昌大学;2006年
3 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
4 高蕾娜;老年慢性病无线监控远程关怀系统关键技术研究[D];华中科技大学;2009年
5 许静;面向模块化产品平台的技术对象有序化及重用技术研究[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 王文栋;GEP及SVM融合的分类技术研究[D];广西师范学院;2010年
3 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
4 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
5 荣建文;基于RS-SVM的Web中文文本自动分类研究[D];东北财经大学;2010年
6 王询;面向航运领域的文本分类系统[D];大连海事大学;2011年
7 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
8 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
9 戴依若;基于内容的中文流行病新闻主题分类[D];北京邮电大学;2011年
10 陈淑华;企业短信互动系统设计及实现关键技术研究[D];中南大学;2011年
【二级参考文献】
中国期刊全文数据库 前3条
1 战学刚,林鸿飞,姚天顺;中文文献的层次分类方法[J];中文信息学报;1999年06期
2 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
3 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
【相似文献】
中国期刊全文数据库 前10条
1 杨丽华;戴齐;郭艳军;;KNN文本分类算法研究[J];微计算机信息;2006年21期
2 周文霞;;现代文本分类技术研究[J];武警学院学报;2007年12期
3 肖红;刘淑华;;一种文本多级分类方法研究[J];长江大学学报(自然科学版)理工卷;2008年02期
4 赵博;丁华福;;一种基于关键向量的文本分类模型[J];信息技术;2007年12期
5 林永民;吕震宇;赵爽;朱卫东;;向量空间模型中特征加权的研究[J];情报杂志;2008年03期
6 马甲林;张桂珠;刘金岭;;中英文文本分类系统异同因素的探讨[J];电脑学习;2011年02期
7 方兰,王明文;文本自动分类技术及其应用[J];计算机与现代化;2004年07期
8 卢炎生;崔得暄;邹磊;;特征序列分析方法在文本分类中的应用[J];计算机工程;2006年20期
9 解本政;;TCBPL:一种高效文本分类新方法[J];计算机工程;2005年23期
10 何国辉;吴礼发;;基于机器学习的文本分类技术的研究[J];计算机与现代化;2009年08期
中国重要会议论文全文数据库 前10条
1 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
4 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
8 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
3 蔚蓝;风,穿越细微,覆盖辽阔[N];文艺报;2006年
4 肖自强;列维纳斯:“说”或者“写”[N];中国图书商报;2007年
5 匡钊;批评理论[N];光明日报;2002年
6 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
7 杨斌华;性别书写与诗歌想像[N];文学报;2006年
8 希安;微软试水信息检索[N];经济日报;2004年
9 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
10 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
5 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
6 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 郝立柱;汉语文本自动分类[D];吉林大学;2008年
9 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
10 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
2 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
3 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
4 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
5 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
6 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
7 张玉杰;基于偏斜数据集的中文文本分类问题的改进特征权重算法研究[D];东北师范大学;2010年
8 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
9 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
10 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026