收藏本站
《大连理工大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于概念图挖掘的中文文本倾向性研究

王鉴全  
【摘要】:Web2.0技术的广泛应用,为人们网上信息交流提供了友好的技术平台。网络社区如人人网,Facebook, LinkIn, Twitter,以及博客、微博等多种信息交流形式,使得网上信息传播的途径增多,传播速度迅捷。为了有效监管和控制网上各种倾向性信息(包括低级、黄色、暴力、邪教、反社会等)并及时掌握社会焦点信息的传播,对于网页文本信息的倾向性分析成为研究的热点问题。 对于文本的倾向性分析属于文本挖掘的研究领域,所用到的基本方法涵盖了自然语言的理解和处理、统计分析、数据挖掘、知识管理等方法。传统的基于规则的文本挖掘方法规则的建立是瓶颈问题,由于规则的僵化和滞后使得文本分析的效果不够好;基于统计的文本挖掘方法通过词语提取和简单统计计算文本的整体倾向度,结果偏重于经验,文本分类的效果不够细致;基于机器学习的文本倾向性分类方法需要大量的样本对分类器进行训练,在文本分类初期,特别是对于特定领域文本的分类初期,由于样本数据的缺乏必然导致分类效果不够理想,这也将使语料库的样本不够精确,间接导致后期的文本分类准确度较低;支持向量机的方法可以较好的解决小样本学习的问题,但算法比较复杂:而基于相关性的分析方法提供了一种更细粒度的文本倾向性分类方法,考虑情感词、词组以及特征词的依存关系,分类效果比较前面几种方法更好,但对自然语言的处理技术提出了更高的要求;基于语义学的文本倾向性分析方去以情感词汇和词语的倾向性为主要特征,通过过滤模板或者相关性计算分析文本的倾向性,准确率可以达到80%,但模板的设计生成以及相似性计算阈值的设定成为关键的问题。 上述文本倾向性分析的结果都是给出文本的倾向性分类结果,对于这种结果的划分取决于阈值的设定,而阈值的设定很大程度上是主观的。另一方面,文本倾向性的分类结果不能够直观地描述出文章作者要表达的主题内容,特别是对于那些在设定阈值附近的文档可能存在误判的情况。 针对前面描述的已有文本倾向性分析方法存在的问题,本文提出采用概念图挖掘的方法来进行文本的倾向性分析,提高中文文本挖掘的可视化程度,目的在于提高中文文本倾向性分析的准确度。无论文章的内容是什么,都可以图形化地提取文档的主题内容,避免因为阈值设定的误差而导致文本倾向性分类的错误。 论文的研究工作主要体现在以下几个方面: (1)提出基于中文自动构词算法的SVM文本倾向性分类方法 词库在文本分类研究中起着至关重要的作用。通用的文本倾向性分析方法对于文本的分类都是基于统一大词表,一般包含几十万甚至于上千万的词汇量,而对于文本倾向性分析而言,最常用的只是一些领域内的词语,统一大词表的搜索方式必然会消耗很多的搜索时间,导致搜索速度降低。本文提出的中文自动构词算法可以自动化地动态构建专用词库,不仅解决了统一大词表搜索时间过长的问题,同时也避免了人工构造专用词库词汇不足和添加词语之后的问题。 (2)提出基于二元隐Markov模型和条件随机域模型的文档句法分析方法 中文文本词汇量大,词的组合随机性强,表达的语义丰富多彩,基于随机理论的句法分析方法可以较好的符合中文的语言表达特点。因而本文采用二元隐Markov模型进行词汇标注,采用二阶条件随机域模型进行组块分析,结合对文档的主体结构分析可以较好的生成用于概念图挖掘的结构化的语法树。 (3)提出由中文文本语法树自动生成初始概念图的方法 将描述一篇文档的结构化的语法分析树映射为概念图是概念图挖掘的关键步骤。本文在前面句法及语义分析的基础之上,借助传统的统计分析方法提取文档语法树中的概念和概念之间的关系,并生成初始概念图,所提出的方法简单易行,分析速度快。 (4)提出基于权重的剪枝算法解决初始概念图的化简问题,提取文档主题内容 最初提取的概念图是比较庞大的,必须通过化简才能提取文章的主题内容。本文在考虑概念本身的重要性基础之上,通过概念图中概念之间联系的“度”来计算概念的权重,每一轮迭代将权重较低的概念节点删除,并将该节点的权重合并到邻接节点,经过多次迭代实现对初始概念图的化简,最后生成可以表达文档主题内容的简化概念图。 为了证明本文所提出方法的科学性和有效性,文中对于所提出的策略、方法进行了详细的理论推导,给出具体的算法,并对每一部分内容设计了实验验证环节。实验表明,我们所提出的对于中文文档的概念图生成及化简方法对于概念提取的正确率达到50%以上,基本上与文献报道的英文文档的概念图提取的水平相当,而由于中文文本语言理解本身的困难,概念提取正确率达到50%这一指标是比较好的,说明本文提出方法有效。 本文研究成果对于中文文本挖掘的可视化研究具有重要的理论意义,丰富和发展了中文文本倾向性分析理论,同时对于网上海量文本信息倾向性的快速分析具有重要的现实意义,可以用于公安系统及行业主管部门对于网络舆情信息的监管,也可以广泛应用于电子商务商家对于客户的个性化偏好的分析。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
2 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
3 李丽双;黄德根;毛婷婷;徐潇潇;;基于支持向量机的中国人名的自动识别[J];计算机工程;2006年19期
4 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
5 毛雪岷;丁友明;;基于语义引导与支持向量机的中文文本分类[J];情报杂志;2007年11期
6 龚静;周经野;;一种基于多重因子加权的文本特征项权值计算方法[J];计算技术与自动化;2007年01期
7 张雪英;Jürgen Krause;;中文文本关键词自动抽取方法研究[J];情报学报;2008年04期
8 葛亮;赵建国;;一个中文网络文本过滤系统的设计[J];电脑知识与技术;2008年26期
9 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[J];杭州电子科技大学学报;2010年05期
10 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
6 蒙应杰;司蕾;是垚;;基于矢量图形的中文文本零水印算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
7 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
9 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
10 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
3 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
4 ;健康、成本兼顾[N];中国计算机报;2004年
5 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
6 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
7 赛迪评测外设测试实验室;Canonxnu i320喷墨打印机[N];中国计算机报;2002年
8 赛迪评测计算机外围设备实验室;Epson Stylus Photo 915彩色喷墨打印机[N];中国计算机报;2003年
9 ;为专业打印提供更高扩展性[N];中国计算机报;2004年
10 詹亦文;签英文合同谨防陷阱[N];中国改革报;2003年
中国博士学位论文全文数据库 前10条
1 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年
2 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 徐迎晖;文本载体信息隐藏技术研究[D];北京邮电大学;2006年
5 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
6 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
7 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
8 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
9 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
10 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
2 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
3 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
4 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
5 许林杰;中文文本分词研究[D];山东师范大学;2003年
6 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
7 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
8 许君宁;基于知网语义相似度的中文文本聚类方法研究[D];西安电子科技大学;2010年
9 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
10 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026