收藏本站
《吉林大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本自动分类系统的研究与实现

张桂林  
【摘要】: 本文的第一章介绍了自动文本分类技术的产生背景及其意义,介绍了自动文本分类的问题描述、评价方法以及技术的种类,并在最后部分介绍了国外该技术的研究现状。 第二章介绍了中文文本自动分类的技术基础。 第三章介绍了文本分类的关键技术,对文本分类中的文本的表示、 特征项的提取、训练算法和分类算法以及阈值的确定都作了较为详细的阐述。 第四章是本论文的重点,在本章中,集中介绍了本人所作的工作。首先对于分词歧义处理的情况进行了分析,并提出了基于上下文的双向扫描分词算法。然后,对于目前通用的tfc加权法的不足之处进行了分析,并引进χ2统计量参与项的权值的计算。除此之外,在文本分类过程中,目前传统的做法是所有类别都具有同一个特征项集,但这样做使得有些类别的特征概括不全或者所选出的特征并不具备区分类别的能力。为此,本文提出了这样一种思想,即对于每一个文本类别,都单独赋予一个特征项集,并且对于同一个词项在不同类别所对应的特征项集中的权重都不尽相同。并在随后将项的类内文档频率的概念引入项的权重计算当中,进一步提高了特征项对于文本分类的有效性。关于文本分类算法,提出了项打分分类算法。 最后在第五章,通过实验证明了改进后的权重计算方法的优越性,同时也证明了项打分分类算法的可行性。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP311.52

【引证文献】
中国期刊全文数据库 前1条
1 方志龙;;文本特征选择算法MI的改进[J];计算机与现代化;2011年07期
中国博士学位论文全文数据库 前1条
1 高蕾娜;老年慢性病无线监控远程关怀系统关键技术研究[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前5条
1 柴春梅;互联网短文本信息分类关键技术研究[D];上海交通大学;2009年
2 刘慧;基于KNN的中文文本分类算法研究[D];西南交通大学;2010年
3 梁云静;基于遗传算法的主题爬虫搜索策略研究[D];湖北工业大学;2010年
4 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
5 陈佳;基于领域知识库的短文本分类研究[D];东北师范大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
4 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
5 吴胜远;并行分词方法的研究[J];计算机研究与发展;1997年07期
6 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
7 都云琪,肖诗斌;基于支持向量机的中文文本自动分类研究[J];计算机工程;2002年11期
8 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
9 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
10 金翔宇,孙正兴,张福炎;一种中文文档的非受限无词典抽词方法[J];中文信息学报;2001年06期
中国硕士学位论文全文数据库 前2条
1 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
2 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
【共引文献】
中国期刊全文数据库 前10条
1 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
2 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
3 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
4 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
5 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
6 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
7 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
8 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
9 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
10 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 舒宁;陶建斌;;面向土地利用分类的多源遥感数据混合贝叶斯网络分类器[A];全国农业遥感技术研讨会论文集[C];2009年
3 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
4 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
5 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
6 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
7 朱春江;陆宇旻;李陶深;杜衡斌;唐晟;;分布式网络监控系统中网页安全挖掘的研究[A];广西计算机学会2008年年会论文集[C];2008年
8 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
9 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
10 安娜;刘海涛;侯敏;;语料库中熟语的标记问题[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
3 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
6 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
7 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
8 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
9 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
10 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
5 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
6 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
7 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
8 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
9 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
10 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
3 何益斌,高景昌,杨亚红,赵君,李小琳;Microsoft SQL Server的索引结构及其优化[J];长春邮电学院学报;2001年Z1期
4 李巍;孙涛;陈建孝;罗梓恒;李雄飞;;基于加权余弦相似度的XML文档聚类研究[J];吉林大学学报(信息科学版);2010年01期
5 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
7 谌志群,周昌乐;汉语机器理解研究现状及展望[J];电脑学习;1999年02期
8 田忠;宋铁成;叶芝慧;沈连丰;;基于IEEE802.15.4的无线传感器网络的设计与实现[J];电子工程师;2006年07期
9 何峰,林亚丽;改进的KNN文本分类算法综述[J];福建电脑;2005年01期
10 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
中国博士学位论文全文数据库 前7条
1 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
3 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
4 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
5 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
6 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
7 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 廖永珺;基于本体的知识联通方法及其应用研究[D];广西大学;2002年
3 杨昂;文本分类算法研究[D];湖南大学;2002年
4 葛斌;基于构件的软件复用技术研究[D];合肥工业大学;2002年
5 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
6 李威;基于向量空间的文本自动分类系统的研究和实现[D];兰州理工大学;2005年
7 马慧敏;中文文本自动分类方法的研究和实现[D];华北电力大学(河北);2005年
8 柳培林;基于向量空间模型的中文文本分类技术研究[D];大庆石油学院;2006年
9 张勇;中文术语自动抽取相关方法研究[D];华中师范大学;2006年
10 杨柳;基于文本的中文本体知识获取的研究[D];中国科学院研究生院(计算技术研究所);2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 蒋永辉;;基于贝叶斯算法的垃圾短信过滤系统的设计与实现[J];电脑知识与技术;2012年15期
2 杜娟娟;郑丽英;;基于模拟退火遗传算法的主题爬虫搜索策略研究[J];科技风;2012年16期
3 邓承刚;张俊;刘宁;;基于属性值分布的关系数据库对象级别检索结果排序算法[J];计算机科学;2013年03期
4 谢力;李光耀;谭云兰;;基于词频和文本类别的互信息改进算法[J];井冈山大学学报(自然科学版);2013年03期
5 吴静;;KNN算法在就业预测模型中的应用[J];莆田学院学报;2013年02期
6 张兴文;唐莹;张义雄;;卫生信息化下的医院-社区-家庭三位一体老年慢性病健康服务模式探讨[J];中华全科医学;2013年10期
7 刘建波;;面向情感分析的短文本意义串发现及分析算法[J];武汉理工大学学报(信息与管理工程版);2011年05期
8 刘建波;杨峰;;面向舆情分析的短文本频繁模式聚类算法[J];北京电子科技学院学报;2010年04期
9 赵辉;刘怀亮;;面向用户生成内容的短文本聚类算法研究[J];现代图书情报技术;2013年09期
10 乔虹;;智能小区健康护理专家系统设计[J];网络安全技术与应用;2013年10期
中国硕士学位论文全文数据库 前10条
1 段凯;基于Web的慢性病监测管理系统的设计与实现[D];大连理工大学;2010年
2 杨慧娟;基于语义体与模糊聚类的中文垃圾邮件过滤方法研究[D];兰州理工大学;2011年
3 郑小波;基于语义的主题搜索引擎研究[D];安徽大学;2011年
4 杜尔斌;基于改进KNN的文本分类算法的设计与实现[D];上海交通大学;2010年
5 赵小谦;短文本指纹的研究[D];南京邮电大学;2012年
6 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
7 吴世竞;垃圾短信过滤系统的设计与实现[D];北京邮电大学;2012年
8 林源;英文短文本相似性研究及在图书推荐中的应用[D];北京林业大学;2010年
9 张立伟;网络信息过滤中反馈机制的研究及应用[D];山东师范大学;2010年
10 邹丽娜;网络信息采集及智能处理技术研究[D];广东工业大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 王磊,潘进,焦李成;免疫算法[J];电子学报;2000年07期
2 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
3 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
4 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
5 王建会,王洪伟,申展,胡运发;一种实用高效的文本分类算法[J];计算机研究与发展;2005年01期
6 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
7 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
8 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
9 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期
10 苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期
【相似文献】
中国期刊全文数据库 前10条
1 张雪英;Jürgen Krause;刘凤玉;;文本自动分类中的动态类别扩展研究[J];计算机应用研究;2007年05期
2 刘卓;;K-最邻近算法在文本自动分类中的应用[J];苏州市职业大学学报;2010年02期
3 康平波,王文杰;基于自动分类的搜索引擎过滤系统[J];计算机工程;2004年02期
4 郭少友;;基于词语上下文关系的文本自动分类方法研究[J];现代图书情报技术;2008年05期
5 王志玲;王效岳;;国内文本分类研究论文的统计分析[J];图书情报工作;2006年11期
6 张玉峰;黄姮;;融合文本自动分类的竞争情报定标比超分析模型研究[J];图书情报知识;2011年04期
7 张婷慧;耿焕同;蔡庆生;;一种改进的VSM及其在文本自动分类中的应用[J];微电子学与计算机;2005年12期
8 许璐蕾;;面向搜索引擎的文本自动分类系统实现[J];苏州市职业大学学报;2007年04期
9 张婷慧,耿焕同,蔡庆生;基于CBR的文本自动分类研究[J];计算机应用;2005年09期
10 王明文,付雪峰,左家莉;网页与文本自动分类综述[J];南昌工程学院学报;2005年03期
中国重要会议论文全文数据库 前5条
1 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 卢朋;曾隽芳;杨一平;;基于背景知识的文本自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
3 张巍;游宏梁;张吉才;;一种基于加权投票的术语自动识别方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 丁政建;张路;;基于本体的语义检索研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前4条
1 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
4 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 张磊;英文文本自动分类系统研究与算法改进[D];江西师范大学;2013年
2 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
3 黄瑜青;基于支持向量机的文本自动分类器的研究与应用[D];广东工业大学;2012年
4 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
5 包立伟;面向信息检索的文本自动分类技术研究[D];华东理工大学;2013年
6 吴波;中文文本自动分类的应用研究[D];淮北师范大学;2013年
7 张振浩;中文文本自动分类关键技术研究及实现[D];浙江理工大学;2013年
8 李真;基于贝叶斯的XML文本自动分类技术研究[D];吉林大学;2010年
9 聂璐;WEB文本自动分类的设计与实现[D];西北大学;2009年
10 刘志红;多语种多类别体系下文本自动分类系统的研究与实现[D];东北大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026