收藏本站
《湖南大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于知网构建化工领域文本分类模型研究

唐歆瑜  
【摘要】: 文本分类作为机器学习的一个重要问题,其研究一直受到关注。然而作为一类特殊的文本,领域知识文本的分类问题却没有得到足够的重视;与此同时,领域知识文本分类问题的需求却与日俱增。针对这一现实需求,本文结合化工类领域文本信息对领域文本的分类问题进行了深入研究。 本文首先介绍了文本的向量空间模型(VSM)的表示方法,以及文本分类的算法步骤:文本预处理、特征选择、权重计算、文本相似度计算。并在此基础上介绍了贝叶斯、K近邻、支持向量机等几种常用的文本分类算法。同时介绍了常用的文本分类算法评价指标体系。 《知网》是一个常识语义知识库,该知识库有两个主要的概念:“概念”与“义原”。“概念”是对词汇语义的一种描述。“义原”是用于描述一个“概念”的最小意义单位。为了进行领域文本分类,本文利用《知网》的架构构建了领域知识库原型。通过《知网》对词汇概念的语义标注,计算了词汇之间的语义相似度。 本文研究了领域文本分类与常识文本分类的特殊性,在文本分类的多个步骤对领域文本分类进行了特殊考虑:在文本预处理阶段,利用本文所构建的领域知识库进行分词处理,避免了大量领域词汇被分割为单字、丢失词汇意义;在特征选择阶段,因为部分领域词汇词频较低,计算出来的CHI特征值较低,为了避免在特征值排序时被过滤,本文对领域词汇的特征值进行了放大;在权重计算阶段,对领域词汇的权重给予了特殊考虑。针对化工领域文本的特殊性,对化工标准、化工领域词汇以及常识词汇按一定比例进行权重计算,突出对领域文本分类意义大的词汇的权重。本文通过多个对比实验验证了上述算法对文本分类的改进。 本文针对词条数目较大,极易产生维度灾难的现象,提出一种特征降维计算方法。基于本文所构建的领域知识库,通过计算特征词汇之间的语义相似度,将原有特征集经过计算后分成若干特征子集,同一特征子集中的特征词语义相似度较大,而不同特征子集的特征词语义相似度较小。将同一特征词集的所有特征项的特征值相加,并将特征词集中的特征项浓缩成为一个独立的特征,突出特征子集的类别意义,降低文本比较的特征维数,从而提高文本分类的精度和分类性能。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 欣文;;同方知网举办第四届数博会云出版、云数字图书馆论坛[J];出版参考;2011年21期
2 张玉峰;黄姮;;融合文本自动分类的竞争情报定标比超分析模型研究[J];图书情报知识;2011年04期
3 袁国女;;中国知网力推我国数字出版“走出去”新平台[J];中国出版;2011年17期
4 牟尧;李曦;;关于文本自动分类算法的研究——以档案自动归类的应用为例[J];中国西部科技;2011年24期
5 申莹;徐东平;庞俊;;基于概念的中文博客情感极性聚类分析[J];计算机系统应用;2011年08期
6 刘攀;王丽亚;;基于Web语义挖掘的产品功能使用度分析[J];计算机应用研究;2011年07期
7 丁玉东;张春峰;;知网和万方收录学位论文全文数量的对比分析[J];情报杂志;2011年09期
8 柳玉;贲可荣;马喆;;基于知网的软件故障案例语义表示方法[J];海军航空工程学院学报;2011年03期
9 许琦;;一种基于知网的文档语义模型构建方法[J];中国科技资源导刊;2010年04期
10 林丽华;;精准打印知网的论文查证页面[J];电脑迷;2011年14期
11 ;中国知网简介[J];经济视角(中旬);2011年01期
12 ;关于本刊编辑部授权中国知网优先数字出版的通知[J];电讯技术;2011年08期
13 ;关于本刊编辑部授权中国知网优先数字出版的通知[J];电讯技术;2011年06期
14 ;《热力发电》在中国知网的影响因子显著上升[J];热力发电;2011年06期
15 ;关于本刊编辑部授权中国知网优先数字出版的通知[J];电讯技术;2011年07期
16 张保富;施化吉;;一种基于粗糙集文本自动分类的改进算法[J];计算机工程与应用;2011年24期
17 ;中国知网简介[J];经济视角(中旬);2011年04期
18 ;版权声明[J];大气与环境光学学报;2011年03期
19 ;“中国知网杯”全国中小学数字阅读活动拉开帷幕[J];新课程研究(下旬刊);2011年07期
20 ;“中国知网杯”全国中小学数字阅读活动拉开帷幕[J];新课程研究(上旬刊);2011年08期
中国重要会议论文全文数据库 前10条
1 郝长伶;董强;;知网知识库描述语言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 董强;董振东;;基于知网的相关概念场的构建[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 卢朋;曾隽芳;杨一平;;基于背景知识的文本自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
5 白宇;蔡东风;赵环宇;季铎;;基于语义计算的中文相似问句抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 王红玲;吕强;徐瑞;;一种基于知网的中文语义相关度计算模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 杨尔弘;米丽萍;郝秀兰;;基于《知网》的词义排岐方法[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 邓辉;林柏钢;;一种基于《知网》的敏感信息预测技术[A];第十届中国科协年会论文集(三)[C];2008年
10 陈慧清;林世平;;基于知网和模式自举的概念间分类关系获取方法[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 记者 陈磊;中国知网率先推出优先数字出版[N];科技日报;2010年
2 见习记者 廖小珊;中国知网推出优先数字出版 读者可多种数字渠道获取[N];中国新闻出版报;2010年
3 本报记者 杨杨;投资、创业两不误:李童的“新孩子”恒知网[N];21世纪经济报道;2011年
4 记者 王秀萍;“中国知网”集约化印刷华北基地在并建成[N];山西经济日报;2010年
5 程晓龙;中国知网联姻施普林格[N];中国新闻出版报;2008年
6 陈;思科用无线感知网络[N];中国计算机报;2003年
7 李大庆;中国知网与施普林格全面合作[N];科技日报;2008年
8 路华;中华行知网(www.sotrip.com)文化与旅游的契合[N];中国旅游报;2000年
9 高向东;千家数字图书馆对接“中国知网”数字出版平台[N];山西日报;2007年
10 计亚男;中国知网数据库携手施普林格[N];光明日报;2008年
中国博士学位论文全文数据库 前9条
1 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
4 景东升;基于本体的地理空间信息语义表达和服务研究[D];中国科学院研究生院(遥感应用研究所);2005年
5 车超;知识自动获取的词义消歧方法[D];大连理工大学;2010年
6 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
7 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
8 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
9 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 王萌;基于概念向量空间模型的中文自动文摘研究[D];华中师范大学;2005年
2 许超;汉英双语网页资源中相同事件文本对的提取[D];南京师范大学;2005年
3 张静静;基于知网文本相似度的文摘自动评测方法研究[D];中国石油大学;2011年
4 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
5 尹本雄;中文搜索引擎中的文档特征提取研究[D];广西师范大学;2004年
6 柴晓丽;自动文摘技术的研究与应用[D];长春理工大学;2007年
7 苗雪雷;基于条件随机场的汉语词义消歧方法研究[D];沈阳航空工业学院;2007年
8 周美希;汉语语句组块及消歧的研究与实现[D];电子科技大学;2005年
9 卢冶;基于概念扩充和综合评价的中文自动文摘研究[D];大连理工大学;2006年
10 李佳;基于知网的中文本体映射研究[D];北京邮电大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978