收藏本站
《厦门大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

基于概念的文本自动分类研究

苏伟峰  
【摘要】: 随着因特网的迅猛发展,大量的信息朝着人们扑面而来,如何管理好所得到的信息的问题变得越来越突出,对文本进行分类管理是人们经常采用的一种文件管理方法。 本文提出了一个基于概念的自然语言文本自动分类模型,该模型以《知网》为主要的概念知识源,以词所表示的概念为分类基础,把概念继续分解至义原,并在可分义原组成的向量空间进行文本分类。该模型概述如下:文本分类系统分为训练模块和分类模块,义原分为可分义原和不可分义原,文本在经过预处理后,按一定规则提取出关键词,对有岐义的关键词,根据其词性和上下文对对其进行概念排岐,根据关键词所表示的概念在《知网》中的定义,把关键词分解成义原,并将不可分义原剔除,从而把文本表示成可分义原向量空间中的一个向量。在训练集中的文本均表示成向量空间的文本之后,训练集中相似的向量在向量空间中会形成文本聚类。对于将要进行分类的文本,亦按上述的方法将其表示为一向量,并在训练集中找出k个与其距离最近的邻居的类别作为该文本的类别。实验表明,该模型相对于基于关键词的文本分类方法有更好的召回率和精确率,进行分类时所需的空间较少,计算时间也相对较短。 本文在三个方面提出了新的思想:第一,首先提出把义原分类为可分义原和不可分义原,并提出分类的原则和方法。这种分类方式可以实现在进行文本分类时,获取概念中最重要的领域特性。第二,虽然现有文献提出用概念来表示文本,但这种概念的表示方式都基于同义词的,把概念分解到义原更能反映出概念的本质和概念之间的相关性,采用义原来表示文本则更反映出文本所要表达的中心意思。第三,首先把概念排岐引入到文本分类中,并提出一种新的概念排岐算法。
【学位授予单位】:厦门大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 牛彦清;陈俊杰;段利国;张巍;;中文问句分类特征的研究[J];计算机应用与软件;2012年03期
中国硕士学位论文全文数据库 前10条
1 刘小荣;基于聚类分析的图模型文本分类[D];内蒙古科技大学;2011年
2 郑伟;基于类别均衡的文本分类算法研究[D];西安电子科技大学;2006年
3 丁琼;基于向量空间模型的文本自动分类系统的研究与实现[D];同济大学;2007年
4 张桂林;中文文本自动分类系统的研究与实现[D];吉林大学;2007年
5 王海龙;汉语关键词识别与主题信息提取的研究及应用[D];北京交通大学;2007年
6 曹勇;中文Web文本分类技术研究[D];厦门大学;2007年
7 许晓晴;基于SVM的文本分类算法研究[D];吉林大学;2008年
8 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
9 韩丽华;信息检索可视化效率若干问题研究[D];黑龙江大学;2008年
10 凌强;古代建筑文化遗产保护知识的分类研究[D];中国科学院研究生院;2008年
【参考文献】
中国期刊全文数据库 前8条
1 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
2 苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期
3 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
4 周水庚,关佶红,俞红奇,胡运发;基于Ngram信息的中文文档分类研究[J];中文信息学报;2001年01期
5 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
6 刘开瑛,薛翠芳,郑家恒,周晓强;中文文本中抽取特征信息的区域与技术[J];中文信息学报;1998年02期
7 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
8 邹涛,黄源,张福炎;基于WWW的文本信息挖掘[J];情报学报;1999年04期
【共引文献】
中国期刊全文数据库 前10条
1 卞真旭;;一种关键词抽取方法研究[J];安徽电气工程职业技术学院学报;2011年S1期
2 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
3 郭新志;钟家民;;一种改进的双重过滤模型算法[J];安阳工学院学报;2009年02期
4 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
5 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
6 蒋宗礼;徐学可;;一种基于集成学习与类指示器的文本分类方法[J];北京工业大学学报;2010年04期
7 张国英,沙芸,刘玉树;模式识别中基于Boosting的特征筛选[J];北京理工大学学报;2004年07期
8 李宁;徐虹;;基于文本分类的语义平滑在语言模型中的应用(英文)[J];成都信息工程学院学报;2008年03期
9 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
10 杨延锟;许少华;;基于FVSM的核聚类算法在文本聚类中的应用[J];长江大学学报(自然科学版)理工卷;2010年01期
中国重要会议论文全文数据库 前10条
1 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年
2 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
6 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
7 ;Comparison of Text Categorization Algorithms[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
8 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
9 ;Chinese Text Emotion Classification Based On Emotion Dictionary[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
10 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
3 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
6 沈巍;建立股指波动预测模型的方法研究及应用[D];华北电力大学(北京);2011年
7 凯瑟(Qaisar Abbas);基于皮肤镜图像的皮肤病变检测方法研究[D];华中科技大学;2011年
8 刘冲;模拟电路故障诊断AdaBoost集成学习方法研究[D];大连海事大学;2011年
9 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
10 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
3 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
4 伍红亮;基于最小风险的贝叶斯邮件过滤算法研究[D];华南理工大学;2010年
5 梁晔平;中文文本自动分类相关算法的研究与实现[D];华南理工大学;2010年
6 李保秀;中文文本分类技术研究[D];南昌大学;2010年
7 苏麒匀;基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究[D];北京交通大学;2011年
8 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
9 欧伟强;Web信息挖掘的研究及应用[D];电子科技大学;2010年
10 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
3 宋旭芒,施放;企业营销管理预警指标体系的研究[J];商业研究;2001年04期
4 张云起,王丕波;客户资信评估A-FA方法及其风险预警[J];中国煤炭经济学院学报;2001年01期
5 王伟;;面向未来的计算模式——普适计算[J];成都电子机械高等专科学校学报;2005年04期
6 贾华;层次分析法中权重算法的一种改进[J];武测科技;1995年03期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 林凌;赵亚涛;;论网络舆论的基本特征[J];东方论坛;2007年05期
9 瞿锋;陈纪元;;汉语自动分词算法综述[J];福建电脑;2006年04期
10 王珏,石纯一;机器学习研究[J];广西师范大学学报(自然科学版);2003年02期
中国博士学位论文全文数据库 前5条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
4 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
5 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
2 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
3 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
4 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
5 张滨;中文文档分类技术研究[D];武汉大学;2004年
6 彭雅;文本分类算法及其应用研究[D];湖南大学;2004年
7 栾丽华;聚类算法研究[D];南京师范大学;2004年
8 张治平;Web信息精确获取技术研究[D];国防科学技术大学;2004年
9 汪传建;基于混合模型的文本分类的研究[D];东北大学;2005年
10 祝翠玲;基于无监督聚类和朴素贝叶斯分类的文本分类方法研究[D];山东大学;2005年
【二级引证文献】
中国期刊全文数据库 前8条
1 孙长宾;柴松;;军事信息主题搜索引擎研究[J];福建电脑;2011年03期
2 匡春临;夏清强;;基于SVM-KNN的文本分类算法及其分析[J];计算机时代;2010年08期
3 方志龙;;文本特征选择算法MI的改进[J];计算机与现代化;2011年07期
4 王青;成颖;巢乃鹏;;网络舆情监测及预警指标体系研究综述[J];情报科学;2011年07期
5 田昕辉;李成基;;带有短语切分的中文文本分类方法(英文)[J];计算机技术与发展;2010年01期
6 鲍蕾;黄曙光;李永亮;;基于商空间粒度合成的中文文本表示法[J];小型微型计算机系统;2011年12期
7 张素智;孙培锋;;基于KSVM的网络评论情感分类研究[J];郑州轻工业学院学报(自然科学版);2011年03期
8 茅剑;刘晋明;曹勇;;一种基于密度的改进KNN文本分类算法[J];漳州师范学院学报(自然科学版);2012年02期
中国博士学位论文全文数据库 前1条
1 高蕾娜;老年慢性病无线监控远程关怀系统关键技术研究[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
3 梁晔平;中文文本自动分类相关算法的研究与实现[D];华南理工大学;2010年
4 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
5 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
6 王询;面向航运领域的文本分类系统[D];大连海事大学;2011年
7 陈淑华;企业短信互动系统设计及实现关键技术研究[D];中南大学;2011年
8 杨海军;城市百科知识库自动构建系统[D];哈尔滨工业大学;2010年
9 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
10 刘小荣;基于聚类分析的图模型文本分类[D];内蒙古科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前7条
1 李蕾,钟义信,郭祥昊;全信息理论在自动文摘系统中的应用[J];计算机工程与应用;2000年01期
2 战学刚,林鸿飞,姚天顺;中文文献的层次分类方法[J];中文信息学报;1999年06期
3 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
4 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
5 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
6 胡侃,夏绍玮;基于大型数据仓库的数据采掘:研究综述[J];软件学报;1998年01期
7 曹素丽,曾伏虎,曹焕光;基于汉字字频向量的中文文本自动分类系统[J];山西大学学报(自然科学版);1999年02期
【相似文献】
中国期刊全文数据库 前10条
1 余刚;裴仰军;朱征宇;陈华月;;基于词汇语义计算的文本相似度研究[J];计算机工程与设计;2006年02期
2 傅鹤岗;徐晨霞;;基于知网的元搜索引擎多关键词检索研究[J];计算机工程与应用;2008年22期
3 张磊;高雪霞;;基于匈牙利算法的语义相似度分析在信息安全泄密检查中的应用[J];新乡学院学报(自然科学版);2010年06期
4 李晗静;李生;赵铁军;;汉语中方位参考点恢复研究[J];计算机研究与发展;2007年02期
5 程莉,卢正鼎,文坤梅,李娟;基于语义的模糊匹配探索与应用[J];华中科技大学学报(自然科学版);2003年02期
6 廖剑;冷静;李艳燕;黄荣怀;;知网的形式概念分析及概念相似度研究[J];计算机应用研究;2007年11期
7 张振幸;李金厚;;一种基于义原重合度的词语相似度计算[J];信阳师范学院学报(自然科学版);2010年02期
8 曹立勇;郑诚;;基于知网的语义相似度的改进算法[J];电子技术;2010年05期
9 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
10 赵赟,刘亚军;智能答疑系统中语义网的研究与应用[J];微机发展;2003年11期
中国重要会议论文全文数据库 前10条
1 苏伟峰;李绍滋;李堂秋;尤文建;;可分义原向量空间中的跨语种文本过滤模型[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
3 杨晓峰;李堂秋;洪青阳;;汉英机器翻译系统中的一种词义排歧方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 郝长伶;董强;;知网知识库描述语言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 张鑫;程学旗;谭建龙;王映;;一种快速的多模式串匹配算法及其在实时汉语文本分类系统中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 冯祥树;;关于向量(线性)空间第二抽象定义[A];数学及其应用文集——中南模糊数学和系统分会第三届年会论文集(上卷)[C];1995年
9 刘健;张维明;;基于文本概念序列的非线性分析方法初探[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 段裕祥 通讯员 舒军忠 刘学永;回家“就业”天地宽[N];桂林日报;2009年
2 本报特约撰稿人 夏玉霞 高为民;擅自通过财政返还税收的十大弊端[N];中国财经报;2003年
3 寿栋芯语;揭开企业搜索的技术面纱[N];计算机世界;2008年
4 上渊;新一代网络技术IPv9走向商用[N];中国高新技术产业导报;2004年
5 王萍;Web文本的知识化管理[N];计算机世界;2006年
6 记者 高智虹 通讯员 董学文 李秀国;全市首家生态猪场落户青龙[N];秦皇岛日报;2008年
7 陈智罡;队列的复习要点[N];中国电脑教育报;2003年
8 本报记者 柳春秋 许慧颖;顺义新城定位高端社区 五年建成[N];第一财经日报;2005年
9 本报记者  赵玫;在保护中开发[N];平凉日报;2006年
10 杨建顺;公务员管理“一刀切”值得商榷[N];法制日报;2003年
中国博士学位论文全文数据库 前10条
1 单建芳;面向事件的文本表示研究[D];上海大学;2012年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
4 黄超;气相色谱—谱联用仪关键技术的研究[D];天津大学;2011年
5 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
6 王菁华;文本中知识的获取[D];北京邮电大学;2008年
7 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
8 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
9 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
10 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
2 蔡开敏;基于本体映射的概念相似性算法研究[D];华中师范大学;2011年
3 司圣涛;领域知识库的构建方法及其应用研究[D];昆明理工大学;2009年
4 刘青磊;汉语词语及句子相似度算法研究与应用[D];电子科技大学;2011年
5 刘亚清;基于词义的汉语排歧方法研究[D];南京理工大学;2004年
6 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
7 王茹;交通术语与标准规范的符合性检测技术研究[D];长安大学;2011年
8 彭俊杰;中文短文本表示及分类的研究与实现[D];河南大学;2012年
9 尹本雄;中文搜索引擎中的文档特征提取研究[D];广西师范大学;2004年
10 刘燕美;教育资源评论的倾向性研究及应用[D];重庆大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026