收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于图结构的中文文本聚类方法研究

刘巧凤  
【摘要】: 随着计算机技术的迅速发展和普及,电子信息日益增多,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对海量的信息资源,人们很难迅速有效的找到真正所需的信息。因此,如何合理有效的组织和管理文本信息已经日益成为信息处理领域一个十分重要的研究课题。近年来,作为保证文本挖掘质量前提的文本表示方法的研究受到越来越多学者的重视。 在本研究中我们从文本表示方法入手,将图论中的图结构技术应用到文本挖掘中,提出了一种新的基于图结构的文本表示方法。与传统的基于统计向量的文本表示方法相比,图结构更有利于文本的结构信息的表示。在保留了文本特征项的同时,还可以描述特征项间的位置关系及关联强弱。 研究内容主要包含以下部分。首先是文本表示模型的提出。在分析了传统文本表示模型现状的基础上提出了基于图结构的中文文本表示模型。将文本特征项表示成图结构节点,特征项间的共现关系描述为图结构的边,进而将文本映射为图结构,有效的解决了文本表示过程中的信息流失问题。 其次是相似度计算方法的引入。与图结构的文本表示方法相对应,我们提出了一种适于此文本表示方法下的文本相似度计算方法——最大公共子图算法。将相似度的计算分解成内容的相似度与结构的相似度,使得文本相似度度量考虑因素更加全面。假设两个图结构公共的部分越多,那么它们所对应的文本间的相似度就越大,因此利用最大公共子图的特性度量两个文本的相似程度。 再次是聚类算法的改进。提出了扩展的K-means聚类算法,引入了中值图的概念将其作为图集中心用以度量单个图结构与图集间的距离,使聚类算法适用于图结构表示的文本聚类。 最后是实验验证。通过对已有分类标注的分类语料进行聚类,应用准确率、召回率和F-Score指标对聚类结果进行评价。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张玉峰;何超;;基于语义空间和SVM的竞争情报分类分析模型研究[J];情报杂志;2011年06期
2 李玉霞;;规则LDPC码构造的论述[J];科技信息;2011年20期
3 黄传波;金忠;;基于半监督线性近邻传递的相关反馈方法[J];信息与控制;2011年03期
4 王奕;;基于概率潜在语义分析的中文文本分类研究[J];甘肃联合大学学报(自然科学版);2011年04期
5 杨博;赵鹏飞;;推荐算法综述[J];山西大学学报(自然科学版);2011年03期
6 王艳;张礼君;韩啸;;数字超声轮轴探伤仪软件系统的设计与实现[J];自动化与仪表;2011年07期
7 金涛;闻立杰;;业务过程模型库索引技术[J];计算机集成制造系统;2011年08期
8 张素莉;潘欣;;一种新颖的基于马氏距离的文本分类方法的研究[J];长春工程学院学报(自然科学版);2011年02期
9 宋晓宇;李玉冲;刘继飞;;基于拓扑结构的工程图纸识别方法[J];沈阳建筑大学学报(自然科学版);2011年04期
10 申莹;徐东平;庞俊;;基于概念的中文博客情感极性聚类分析[J];计算机系统应用;2011年08期
11 张悦;凌兴宏;姚望舒;伏玉琛;;基于改进相似度传播算法的本体匹配[J];计算机应用;2011年09期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 张春鹤;李建中;王宏志;高宏;;基于区间编码的图结构XML数据上DAG匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 刘健;张维明;;基于文本概念序列的非线性分析方法初探[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 张春鹤;李建中;王宏志;;动态图结构XML数据上的查询处理算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 苏伟峰;李绍滋;李堂秋;尤文建;;可分义原向量空间中的跨语种文本过滤模型[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 马志明;;Internet网页与网络站搜索的排序[A];2006全国复杂网络学术会议论文集[C];2006年
8 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 胡佳妮;郭军;徐蔚然;;一种基于短文本的独立语义特征抽取算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
10 张梅;;强台风“凤凰”影响台州连续暴雨成因分析[A];第五届长三角气象科技论坛论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 单建芳;面向事件的文本表示研究[D];上海大学;2012年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
5 路纲;无线自组织网络拓扑结构研究[D];电子科技大学;2009年
6 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
7 叶德仕;通讯网络中排序问题的若干在线和高性能算法[D];浙江大学;2005年
8 高如新;2.1维简约图的表达、计算与应用[D];华中科技大学;2009年
9 李锋刚;基于优化案例推理的智能决策技术研究[D];合肥工业大学;2007年
10 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘巧凤;基于图结构的中文文本聚类方法研究[D];大连理工大学;2009年
2 彭俊杰;中文短文本表示及分类的研究与实现[D];河南大学;2012年
3 范桂群;论坛用户行为分析及文本表示模型研究[D];北京邮电大学;2012年
4 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
5 王东阳;DNA序列拼接中deBruijn图结构的研究[D];哈尔滨工业大学;2011年
6 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
7 史云飞;基于图结构的社会标注系统个性化推荐研究[D];大连理工大学;2012年
8 孙凯;基于现代航空器电源系统参数测试的分析与研究[D];西北工业大学;2003年
9 刘岚;Web News Hunter智能代理[D];中国科学院研究生院(软件研究所);2003年
10 张剑;基于概念的文本表示模型的研究[D];清华大学;2006年
中国重要报纸全文数据库 前10条
1 上渊;新一代网络技术IPv9走向商用[N];中国高新技术产业导报;2004年
2 王萍;Web文本的知识化管理[N];计算机世界;2006年
3 王菡;田野采风切忌文化贵族心态[N];中国艺术报;2006年
4 记者 朱蓓宁实习生 施蜜;带合同示范文本放心出境游[N];南通日报;2007年
5 金炜周太友 见习记者 黄粒粟;“十七大报告说到我们心坎上了”[N];中华工商时报;2007年
6 ;BI和文本分析的强强联手[N];网络世界;2007年
7 本报记者 钟伟 郜云雁;“四融合”理念欲拨开学校信息化迷雾[N];中国教育报;2001年
8 拓玲;农民工城市孩子手拉手逛芙蓉园[N];西安日报;2007年
9 ;外交部举行记者招待会[N];新华每日电讯;2001年
10 烧包少爷;用DC拍摄室内全景——广角拍摄[N];中国计算机报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978