收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于复杂网络的关键词提取研究

左晓飞  
【摘要】:在信息爆炸时代,信息量呈几何级数增长。面对海量文本,如何快速掌握某篇文章的主题、把握作者思想,成为节约读者时间、提高阅读速度的关键问题。关键词作为文章主题和作者思想的体现能够有效解决该问题。然而,网络上的绝大部分文章并未提供关键词,如果对这些文本采取人工标引的方法进行关键词标注,不仅费时费力、效率低下,而且主观随意性比较大。因此,关键词自动提取的研究具有重要的现实意义。 传统的关键词提取算法只注重文档的表层统计特性(如词频、词语位置、词语长度等),忽略文档的语义信息和结构信息,导致关键词语义和结构信息的缺失。而现有基于词语网络的关键词提取算法,虽然在一定程度上利用了文档的结构信息,但语义信息的利用依然不足,并且网络的构造过程过分依赖于分词的粒度。 针对上述问题,本文对基于复杂网络的关键词提取进行了研究。首先针对传统词语网络构造过程中过分依赖分词粒度的不足,提出一种邻近名词合并的算法,在ICTCLAS初步分词的基础上利用提出的邻近词合并算法识别出名词短语,并将短语添加到分词词典中,然后对待处理文档重新进行分词;其次针对传统词语网络语义缺失的问题,在文本复杂网络的构建过程中利用知网对网络节点进行语义标注,为词语网络加入语义信息,然后利用改进的语义相似度计算方法计算节点间的相似度,合并相似节点;再次,在节点重要度计算过程中,提出一种综合考虑网络节点介数和节点加权中心度的综合权值公式。最后,根据提出的算法流程,设计并实现了一个基于复杂网络的关键词提取的原型系统,并对本文提出的各种算法进行了对比实验,结果表明本文提出的关键词提取方法获得了更好的抽取效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 钟晓旭;;层次聚类方法在关键词提取上的研究应用[J];电脑知识与技术;2009年06期
2 陈康,奚伟鹏,蒋凯,武港山;Web智能信息服务系统的设计与实现[J];计算机应用研究;2004年06期
3 程岚岚,何丕廉,孙越恒;基于朴素贝叶斯模型的中文关键词提取算法研究[J];计算机应用;2005年12期
4 管瑞霞;陆蓓;;TFLD:一种中文文本关键词自动提取方法[J];机电工程;2010年09期
5 尹倩;胡学钢;谢飞;吴信东;;基于密度聚类模式的中文新闻网页关键词提取[J];广西师范大学学报(自然科学版);2009年01期
6 秦鹏;张华平;刘金刚;;基于新词发现技术的关键词提算法的研究[J];微计算机信息;2010年33期
7 刘克强;;2009共享版ICTCLAS的分析与使用[J];科教文汇(上旬刊);2009年08期
8 沙芸;张国英;孟凡亮;;基于关键词提取的娱乐新闻文档去重算法[J];广西师范大学学报(自然科学版);2007年02期
9 方俊;郭雷;王晓东;;基于语义的关键词提取算法[J];计算机科学;2008年06期
10 王晓斌;温春;石昭祥;;基于贝叶斯信息准则的文本主题数估计[J];计算机工程;2009年07期
11 章成志;;基于集成学习的自动标引方法研究[J];情报学报;2010年01期
12 章成志;;基于集成学习的自动标引方法研究[J];中国索引;2009年02期
13 张颖颖;谢强;丁秋林;;基于同义词链的中文关键词提取算法[J];计算机工程;2010年19期
14 罗杰;陈力;夏德麟;王凯;;基于新的关键词提取方法的快速文本分类系统[J];计算机应用研究;2006年04期
15 谢凤宏;张大为;黄丹;谢福鼎;;基于加权复杂网络的文本关键词提取[J];系统科学与数学;2010年11期
16 章成志,侯汉清;面向概念挖掘的文本层次模型研究[J];中国图书馆学报;2005年02期
17 许晓昕;李安贵;;一种基于TFIDF的网络聊天关键词提取算法[J];计算机技术与发展;2006年03期
18 章成敏;许鑫;章成志;;条件随机场标引模型的性能影响因素分析[J];现代图书情报技术;2008年06期
19 蒋昌金;彭宏;陈建超;马千里;严桂夺;;基于组合词和同义词集的关键词提取算法[J];计算机应用研究;2010年08期
20 王军;词表的自动丰富——从元数据中提取关键词及其定位[J];中文信息学报;2005年06期
中国重要会议论文全文数据库 前10条
1 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 罗准辰;刘伍颖;王挺;;关键词提取中的分离模型和特征设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 马亮;何婷婷;陈劲光;李芳;邵伟;;一种利用关键词提取的面向查询多文档文摘技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
7 庞宗强;封化民;邱鹍;宋国森;;基于Web的中文新闻视频内容分析[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
8 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 刘宁宁;毕然;任水;叶祺;吴斌;;融合复杂网络理论的科技监测研究[A];2006全国复杂网络学术会议论文集[C];2006年
10 程善;吴泉军;周进;;具有耦合时滞强迫Lienard振子网络的同步动力学[A];中国力学学会学术大会'2009论文摘要集[C];2009年
中国博士学位论文全文数据库 前10条
1 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
4 姜静清;最小二乘支持向量机算法及应用研究[D];吉林大学;2007年
5 余利华;分布式数据存储和处理的若干技术研究[D];浙江大学;2008年
6 周海平;复杂网络的演化模型及传播动力学研究[D];贵州大学;2009年
7 郭龙;复杂网络上自组织临界现象及Opinion演化动力学研究[D];华中师范大学;2010年
8 郭淑娟;复杂网络的混沌同步与参数估计[D];上海大学;2010年
9 何红生;非线性波动与复杂网络的研究[D];兰州大学;2006年
10 贾春晓;基于复杂网络的推荐算法和合作行为研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 左晓飞;基于复杂网络的关键词提取研究[D];西安电子科技大学;2013年
2 梁伟明;中文关键词提取技术[D];上海交通大学;2010年
3 管瑞霞;基于基因表达式编程的中文文本关键词提取算法研究[D];杭州电子科技大学;2009年
4 祖丽湖玛尔·马木提江;维吾尔语区分性关键词提取算法研究及其性能分析[D];新疆大学;2013年
5 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
6 谢晋;基于词跨度的中文文本关键词提取及在文本分类中的应用[D];浙江工业大学;2011年
7 毛新武;基于组合特征的中文新闻网页关键词提取研究[D];北京林业大学;2013年
8 薛征;基于改进TF-IDF的文本信息热点话题发现[D];武汉邮电科学研究院;2009年
9 任新社;基于改进特征值的语音关键词提取[D];南京师范大学;2012年
10 刘治华;面向主题的文档摘要技术研究[D];北方工业大学;2011年
中国重要报纸全文数据库 前10条
1 钟赫;练好十大绝招做好企业微博营销[N];中国高新技术产业导报;2011年
2 本报记者 胡英;在复杂网络中“缉毒”[N];计算机世界;2003年
3 潘金宽;用复杂网络思维看体系破击的科学内涵[N];战士报;2007年
4 李;复杂网络 矢量考量[N];中国计算机报;2004年
5 本报记者 房琳琳;数学正向知识和生产领域全面渗透[N];科技日报;2006年
6 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
7 北京邮电大学 张民;跳出“技术短板”[N];通信产业报;2006年
8 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
9 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
10 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978