收藏本站
《苏州大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

科技论文关键词抽取技术的研究

严春风  
【摘要】: 本文以万方数据和会议集作为测试语料,重点介绍了基于PAT-Tree关键词的抽取方法和知网在关键词抽取中的应用。首先通过实验验证关键词具有的一些特征并介绍了常用的关键词的过滤方法。接着介绍了能够方便快捷地进行全文串频统计的PAT-Tree数据结构以及互信息。在此基础上提出了基于PAT-Tree关键词的抽取方法,抽取过程基于从原始文本中得到的统计信息,取出符合筛选条件的字符串。总体来说分为四个阶段,分别为:对文本进行预处理;在预处理过的文本上建立PAT-Tree,获取文章词频信息;在PAT-Tree上抽取候选关键词;对关键词过滤以及选取关键词。我们把抽取的重点放在了自动过滤符合统计条件的字符串,进一步精选候选关键词上面。我们在精选过程中采用了新的过滤手段,并借鉴了其它方法的优点,形成了一套综合的过滤手段,有效地提高了精确度,减少了计算量。本文的另外一个特色,考虑到会议集是领域语料,特别使用分治法的思想来处理密集计算,高效地建立PAT-Tree,一方面为抽取领域关键词提供了方便,另一方面也使得关键词抽取能够用分布式计算的方法来实现,提供了进一步扩大处理能力的空间。实验结果表明,采用此方法能够高效地抽取关键词,特别是领域关键词的抽取取得了良好的效果,达到了预期目的。最后,引入知网来计算同义词的相似度,以此来解决关键词集合中同义词同现问题和词语由于同义词问题不能进入关键词集合的问题。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前4条
1 张建蓉,陈燕;学术论文中关键词标引的常见问题剖析[J];编辑学报;2003年02期
2 韩客松,王永成;中文全文标引的主题词标引和主题概念标引方法[J];情报学报;2001年02期
3 刘华;;基于关键短语的文本分类研究[J];中文信息学报;2007年04期
4 王军;词表的自动丰富——从元数据中提取关键词及其定位[J];中文信息学报;2005年06期
中国博士学位论文全文数据库 前1条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
2 胡玲玲,许征尼;科技论文关键词的正确标引[J];编辑学报;2005年02期
3 刘根林;孙体如;;论科技期刊编辑必备的素质[J];编辑学报;2006年05期
4 李志辉;智能答疑系统中概念词典的设计与应用[J];重庆科技学院学报(社会科学版);2005年02期
5 陈航;黄春杨;;学术期刊论文关键词的规范化问题[J];航海教育研究;2006年01期
6 逄焕利,周连吉吉,刘寒梅,计小宇;基于概念检索的中文搜索引擎[J];吉林工学院学报(自然科学版);2002年01期
7 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
8 王泰森;一个基于本体论全文自动标引方案[J];情报科学;2003年09期
9 吴春玉;中文全文检索系统主题词标引[J];情报科学;2004年06期
10 秦春秀;赵捧未;刘怀亮;;词语相似度计算研究[J];情报理论与实践;2007年01期
中国重要会议论文全文数据库 前10条
1 程涛;施水才;张玉杰;吕学强;;基于大规模语料库的新闻领域新词挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 章成志;;词语的语义相似度计算及其应用研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 张宇;刘挺;高立琦;车万翔;朱传靖;;基于常问问题集的在线客服实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 王灿辉;金奕江;马少平;;基于文档中心内容快速提取的Web监控辅助系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前7条
1 吴健;基于Web服务的网络化产品配置技术研究[D];浙江大学;2004年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
4 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
5 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
6 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
7 秦忠宝;基于混合知识表示的设计创新及知识获取研究[D];西北工业大学;2006年
中国硕士学位论文全文数据库 前10条
1 王明燕;基于WEB页面的关键词与关键概念提取技术[D];北京工业大学;2003年
2 白丽君;基于内容和协作的科技文献过滤方法研究[D];山西大学;2003年
3 李珊;远程教学中自动答疑系统的研究[D];河海大学;2004年
4 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
5 刘超群;实时答疑系统的研究与实现[D];湖南大学;2004年
6 卢娇丽;基于粗糙集的文本分类方法研究[D];山西大学;2005年
7 杨晓懿;基于内容分析的信息安全过滤技术研究[D];四川大学;2005年
8 张瑞霞;基于语义的汉语句法分析系统的研究与实现[D];西北大学;2005年
9 孙书梅;基于电子白板的即时通信系统的研究与实现[D];武汉理工大学;2006年
10 郭鹏;汉语语法语料库系统的基础设计[D];天津师范大学;2006年
【同被引文献】
中国期刊全文数据库 前9条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 何飞,罗三定,沙莎;基于领域本体的知识关联研究[J];湖南城市学院学报(自然科学版);2005年01期
3 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
4 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
5 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
6 常春,卢文林;叙词表编制历史、现状与发展[J];农业图书情报学刊;2002年05期
7 唐静;叙词表转换为Ontology的研究[J];情报理论与实践;2004年06期
8 乔燕鸿;;国内图书馆学情报学领域关于Ontology的研究综述[J];现代情报;2006年09期
9 李景,孟连生;构建知识本体方法体系的比较研究[J];现代图书情报技术;2004年07期
中国硕士学位论文全文数据库 前2条
1 胡珉;基于领域本体的知识获取和重用技术研究[D];北京化工大学;2006年
2 贾黎莉;Ontology构建中概念间关系的研究[D];中国农业科学院;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 杨小玲,高鲁山;科技论文关键词标引方法的误导必须纠正[J];编辑学报;2002年01期
2 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
3 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
4 柳晓春,左少凝;知识组织与网络资源分类的现状与展望[J];高校图书馆工作;2001年04期
5 陆俭明;词的具体意义对句子意思理解的影响[J];汉语学习;2004年02期
6 舒鑫柱,杨尔弘;基于HOWNET的汉语组块分析[J];河南职技师院学报;2001年04期
7 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
8 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
9 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
10 晋耀红,苗传江;一个基于语境框架的文本特征提取算法[J];计算机研究与发展;2004年04期
中国重要会议论文全文数据库 前2条
1 周雪忠;方青;吴朝晖;;中文文本分类特征表示及分类方法比较研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
2 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前4条
1 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
3 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
4 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前2条
1 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
2 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
【相似文献】
中国期刊全文数据库 前10条
1 张月杰,姚天顺;基于特征相关性的汉语文本自动分类模型的研究[J];小型微型计算机系统;1998年08期
2 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
3 张健沛,刘洋,杨静,代坤;搜索引擎结果聚类算法研究[J];计算机工程;2004年05期
4 谢飞;吴信东;胡学钢;李星华;江兆中;;基于语义联系的新闻网页关键词抽取[J];广西师范大学学报(自然科学版);2009年01期
5 张海燕,陈治平,童调生;基于2-grams短语标引的关键词自动抽取[J];绍兴文理学院学报;2002年09期
6 寇苏玲;蔡庆生;;应用于用户兴趣建模的多文本关键词抽取研究[J];计算机仿真;2007年02期
7 赵鹏;蔡庆生;王清毅;耿焕同;;一种基于复杂网络特征的中文文档关键词抽取算法[J];模式识别与人工智能;2007年06期
8 徐文海;温有奎;;一种基于TFIDF方法的中文关键词抽取算法[J];情报理论与实践;2008年02期
9 邓箴;包宏;;基于条件随机场的中文自动文摘系统[J];西安石油大学学报(自然科学版);2009年01期
10 李静月;李培峰;朱巧明;;一种改进的TFIDF网页关键词提取方法[J];计算机应用与软件;2011年05期
中国重要会议论文全文数据库 前10条
1 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年
2 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 李鹏;王斌;石志伟;崔雅超;李恒训;;Tag-TextRank:一种基于Tag的网页关键词抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 白苏华;;科技论文关键词抽取的标准与方法探讨[A];科技期刊编辑研究文集[C];1993年
6 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
7 房冠南;袁彩霞;王小捷;李江;宋占江;;面向对话语料的标签推荐[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 杨洁;季铎;蔡东风;代翠;;基于TextRank的多文档关键词抽取技术[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 杨洁;季铎;蔡东风;白宇;;基于联合权重的多文档关键词抽取技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 章成志;王惠临;;基于专业领域平行语料的双语核心术语抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前6条
1 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
2 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
3 谢飞;带有通配符的序列模式挖掘研究[D];合肥工业大学;2011年
4 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
5 单建芳;面向事件的文本表示研究[D];上海大学;2012年
6 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 韩雪娇;英语试题关键词抽取算法研究[D];北方工业大学;2013年
2 轩文烽;面向主题的博客资源挖掘关键技术研究[D];哈尔滨工业大学;2011年
3 李静月;中文事件模式自动生成方法的研究和实现[D];苏州大学;2010年
4 吴晓元;层次化关键词抽取与文本自动分类在BBS中的应用[D];上海交通大学;2007年
5 许晖;关键词抽取和结构化列表包装的方法研究[D];清华大学;2005年
6 王磊;本体构建及其在问答系统中的应用研究[D];大连理工大学;2008年
7 杨洁;多文档关键词抽取技术的研究[D];沈阳航空工业学院;2009年
8 李星华;中英文新闻网页关键词抽取技术研究[D];合肥工业大学;2009年
9 马亮;面向查询多文档文摘的文摘句选择与排序研究[D];华中师范大学;2009年
10 徐亚娟;基于公安业务信息的文本挖掘技术研究与实现[D];浙江大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026