收藏本站
《武汉大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于自组织映射的期刊主题研究

安璐  
【摘要】:学术期刊是科学交流的重要载体。随着科学的发展与人类知识的积累,学术期刊及其刊载论文的数量一直保持快速增长的趋势。期刊数量的不断增长必然导致期刊内容的交叉重复,同一学科或研究领域内可能包括许多期刊,如何从主题的角度有效地收藏、利用并管理学术期刊受到许多机构与个人的关注。早期人们对期刊数量的关心也逐渐转化为对期刊主题内容的注意。期刊主题研究具有重要的学术意义与实践价值,它可以为图书馆等收藏机构有效采购学术期刊、新进入的研究者选择研究方向、研究者选择与其研究内容相关的期刊进行投稿、学术期刊制定相应的发展策略以及科研政策与资助计划的制定提供有意义的参考。 学术期刊通常涉及大量的主题,这种高维数据的特点使得期刊主题研究开展起来不太容易。鉴于此,本文将采用一种可视化的降维方法,即自组织映射(SOM)人工神经网络方法来研究期刊主题,使高维的期刊主题数据显示在低维的SOM空间中,便于研究者观察期刊主题的特点。 本文共分为七个部分: 1.期刊主题研究的理论基础 本章阐述了期刊主题研究的对象、主要内容、研究方法以及走向与趋势。期刊主题研究的对象主要有两种,即期刊及其主题。其研究内容可归纳为八个方面:①期刊主题标引研究,②期刊主题的聚类研究,③特定类别的主题在期刊中的分布研究,④基于主题的期刊分类与聚类研究,⑤特定期刊的主题构成分析,⑥不同国家与地区的期刊主题比较研究,⑦期刊主题热点分析,⑧期刊主题发展趋势研究。期刊主题研究的方法主要是文献计量学方法、内容分析法与专家调查法。潜在语义分析、多维标度以及人工神经网络方法也可用于期刊主题研究。期刊主题研究的发展趋势可归纳为以下几点。首先,期刊主题研究的方法迫切需要从现有的大量繁琐的统计分析工作中解脱出来,引入能有效处理高维数据的新方法。其次,研究内容需要拓展,包括对期刊主题的聚类以及基于主题的期刊聚类等内容。最后,期刊主题研究的层次需要进一步提升。例如,在期刊主题发展趋势研究方面,需要研究如何测量期刊主题整体随着时间变化的程度,而不是仅限于统计归纳个别主题随时间发展的状况。 2.自组织映射用于期刊主题研究的方法论 本章描述了自组织映射(SOM)的原理,比较了两种主要学习算法的优缺点与适用条件,归纳了SOM的几种显示方式,讨论了三种性能较好的SOM软件工具,设计并详细阐述了SOM用于期刊主题研究的方法。SOM是一种无指导学习的人工神经网络方法,其学习算法主要是序列学习与批学习算法,U-matrix图和成分图是两种常见的SOM输出形式。三维输出较平面输出而言,可以避免“边缘效应”,具有更高的准确性。通过广泛调查与试用,笔者发现SOM Toolbox, Viscovery SOMine和Databionic ESOM Tools是三种性能较好的SOM软件工具,并采用SOM Toolbox作为本文的研究工具。为了利用SOM进行期刊主题研究,笔者定义了四种SOM输入矩阵,在Ultsch于2003年定义的U-matrix基础上进行修改,提出一种新的增强型U-matrix。此外,笔者提出了四种新的SOM输出方式,即综合成分图、属性叠加矩阵、属性方差矩阵以及关键属性投影,并详细阐述了它们的定义、原理以及在本文的期刊主题研究中的应用方法。 3.期刊主题聚类研究 本章旨在利用SOM算法对期刊的主题进行聚类,生成等级式的主题目录,为用户查找相关主题、浏览相关文献或改进搜索术语提供建议。笔者以53种与图书情报领域相关的英文期刊为样本,抽取它们在2007年的主题,构造了主题-期刊输入矩阵,利用SOM算法对该矩阵进行训练,将2330个主题映射到163个SOM非空结点上。通过比较自定义的增强型U-matrix与Ultsch于2003年定义的U-matrix应用于训练结果的显示效果,验证了第2章提出的新的增强型U-matrix的有效性与先进性。根据结点的相邻性,将SOM结点中的主题聚为21个类,例如计算机信息管理、计算机信息系统、教育等,分析了各个主题聚类的大小与分布特点,并评价了聚类的效果。最后,笔者将主题聚类的结果与相关研究者的研究结果进行了比较。 4.期刊主题的热点分析 本章旨在发现期刊的热点主题以及这些热点主题在期刊中的分布状况。笔者将属性叠加矩阵应用于第3章的SOM训练结果,识别这53种期刊在2007年的热点主题。结果发现,虽然这些期刊广泛涉及大量的主题,但热点主题仅占全部主题数量的1.1%,主要集中在图书馆、计算机信息系统、教育、企业信息化等领域。笔者将热点主题的分析结果与国内相关研究者的研究结果进行了比较,发现了国内外图书情报期刊在热点主题上的异同点。接着,笔者选择了三种重要期刊,分析了它们的热点主题。最后,通过分析图书馆、信息技术与管理信息化这三类热点主题对应的综合成分图,揭示这三类热点主题主要分布的期刊。 5.期刊的主题相似性与差异研究 本章旨在利用SOM算法根据期刊的主题对期刊进行聚类,识别使期刊之间产生主要差异的关键主题,并确定各期刊聚类的主题特点。笔者构造了期刊-主题输入矩阵,利用SOM算法对该矩阵进行训练,将53种期刊映射到140个SOM结点上。通过分析自定义的增强型U-matrix图,结合结点的相邻程度,将期刊聚成19个类,并对聚类效果进行了评价。然后,笔者将属性方差矩阵应用于第2章对主题-期刊矩阵的训练结果,识别使期刊之间产生主要差异的关键主题;将期刊SOM输出投影到由图书馆类、信息技术类与管理信息化类这三组主题形成的三维空间中,从而分析各期刊聚类的主题特点。 6.期刊主题发展趋势研究 本章旨在利用SOM算法确定期刊主题整体在一段时间内变化的程度,分析主题的时序活跃性以及活跃主题的变化趋势。笔者以Journal of Information Science(JIS)从1981-2007年的主题数据为样本,构造了年份-主题矩阵,利用SOM算法对该矩阵进行训练,将27个年份映射到26个SOM非空结点上,并以彗星模式显示SOM输出。通过分析连续年份在SOM输出中的位置之间的相邻程度,根据自定义的增强型U-matrix图,将27个年份聚成13个类,揭示了该期刊的主题在这27年间的整体变化规律。接着,通过构造主题-年份矩阵,利用SOM算法对该矩阵进行训练,将990个主题映射到153个SOM结点上,应用属性方差矩阵,识别随时间变化较为明显的活跃主题,结合属性叠加矩阵,识别平稳发展的热点主题。最后,利用综合成分图,分析了信息类、计算机与网络类以及图书馆类这三类活跃主题随时间发展的趋势。 7.研究的不足及展望 本章总结了本研究在数据收集与研究内容上的不足,指出后续将扩大研究的期刊范围与时间跨度,研究更多期刊在更长时间跨度内的主题特点;阐述了属性叠加矩阵与属性方差矩阵用于分析期刊的主题总数、主题侧重程度之间的差别以及这些指标随时间变化的规律的基本原理。此外,比较不同国家与地区的图书情报期刊在主题上的相似性与差异将有助于国内图书情报学研究与期刊发展。 图24,表22
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:G353.21

【引证文献】
中国期刊全文数据库 前3条
1 覃丽金;吉家凡;唐朝胜;刘小香;邓玲;;主题式学科化服务模式研究——结合海南大学图书馆的案例分析[J];图书馆论坛;2014年04期
2 李湘东;张娇;袁满;;基于LDA模型的科技期刊主题演化研究[J];情报杂志;2014年07期
3 王聪;郑明慧;王振华;秦誉嘉;周贤;龚国祥;李志红;潘绪斌;;植物检疫性有害生物名单发展综述与制订方法探讨[J];植物检疫;2014年03期
中国硕士学位论文全文数据库 前1条
1 夏欣;基于PSO-FNN的网络安全态势评测研究与实现[D];电子科技大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 陈明;论科技期刊论文的主题标引[J];安徽农业技术师范学院学报;1999年04期
2 唐菁;Web文本挖掘系统及聚类算法的研究[J];电信建设;2004年02期
3 李欣欣;王丽;姜瑾秋;;医学期刊论文主题标引存在的问题及对策[J];编辑学报;2006年05期
4 沙培宁;期刊主题化运作的“优”与“思”[J];编辑之友;2005年02期
5 李恩昌;探索期刊主题策划的新路子[J];报刊之友;2000年04期
6 许丽燕;;让主题策划在期刊编辑中唱“主角”[J];出版参考;2007年21期
7 姜秀敏;浅谈学报类期刊文献的主题标引[J];大连教育学院学报;1999年04期
8 黄长著;国外人文社会科学的现状及发展趋势[J];湖南社会科学;2005年01期
9 苏毅;英《糖业文摘》主题词表、作者索引和引用中国期刊的研究[J];广西轻工业;1999年02期
10 吕春雷;主题标引的普及教育与期刊关键词规范化[J];邯郸医学高等专科学校学报;2004年03期
中国博士学位论文全文数据库 前4条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 吴笑凡;基于主题地图的知识管理关键技术研究[D];南京航空航天大学;2006年
4 王曰芬;文献计量法与内容分析法的综合研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 白振田;基于向量空间模型与规则匹配相结合的文本层次分类系统的研究[D];南京农业大学;2006年
2 李丽丽;国际上广告研究30多年来的发展状况及趋势研究[D];厦门大学;2006年
3 彭家常;科学学及其三种学术期刊的文献计量学研究[D];天津大学;2006年
4 陈大明;乙肝防治的情报学研究[D];中国科学院研究生院(上海生命科学研究院);2007年
5 杨阳;中医临床术语集语义关系的示范研究[D];中国中医科学院;2007年
6 王亮亮;基于内容分析法的管理科学发展方向与热点分析[D];重庆大学;2007年
7 李蜜;1996年以来我国社会体育研究的文献计量评析[D];福建师范大学;2007年
8 卢宁;面向知识发现的知识关联揭示及其应用研究[D];南京理工大学;2007年
9 黄河胜;用词频分析法看国内药学研究趋势[D];安徽医科大学;2007年
10 许侃;基于CSSCI的管理学引文可视化研究[D];大连理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 胡媛媛;;数字资源整合研究领域的文献计量分析[J];安徽工程科技学院学报(自然科学版);2010年03期
2 关琼;李纪伟;梁山;;基于CNKI文献的3S技术在湿地研究中的应用[J];安徽农业科学;2010年15期
3 左惠凯;闫路娜;;基于文献计量学的国外溶菌酶研究分析[J];安徽农业科学;2010年29期
4 尹方屏;刘静伟;张大为;;中国服装学科论文的科学生产率研究[J];北京服装学院学报(自然科学版);2007年01期
5 刘兹恒;;对我国图书馆学应用研究的一些看法[J];国家图书馆学刊;2007年04期
6 顾伟泉;《比较教育研究》计量评价与比较教育研究发展现状分析[J];比较教育研究;2005年03期
7 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
8 李宝凤;李臻;李云;;论体育学术期刊论文中主题词的正确标引[J];北京体育大学学报;2008年12期
9 李欣欣;王丽;姜瑾秋;;医学期刊论文主题标引存在的问题及对策[J];编辑学报;2006年05期
10 李欣欣;王丽;姜瑾秋;;科技学术期刊编辑应具备“米”字型知识结构[J];编辑学报;2007年06期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
3 肖明;李国俊;;基于共词分析的信息资源管理热点研究[A];科学发展:文化软实力与民族复兴——纪念中华人民共和国成立60周年论文集(下卷)[C];2009年
4 邱五芳;;中国图书馆学应进一步弘扬实证研究[A];第五次全国图书馆学基础理论研讨会论文集[C];2007年
5 顾伟泉;梁欣;赵凤华;;教育类中国学术期刊计量评价与教育发展态势研究(2001年部分)[A];高教改革研究与实践(下册)——黑龙江省高等教育学会2003年学术年会论文集[C];2003年
6 衡中青;侯汉清;;地方志引书挖掘及其引书分析研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
7 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
8 金永勤;;医学文献关键词标引中的组配标引探析[A];改革创新·科学发展——第7届全国核心期刊与期刊国际化、网络化研讨会论文集[C];2009年
9 赵宁民;王睿;梁蓓蓓;蔡芸;白楠;;米诺环素文献循证计量分析[A];2010年中国药学大会暨第十届中国药师周论文集[C];2010年
10 邱均平;柴雯;;国际科学计量学研究的进展与趋势[A];第十届中国科技政策与管理学术年会论文集——分6:区域创新与绿色发展(Ⅰ)[C];2014年
中国博士学位论文全文数据库 前10条
1 吴鹏;基于本体论的社会关系网络信息可视化研究[D];国防科学技术大学;2011年
2 许红民;不同分化程度大肠癌的基因表达谱分析[D];第一军医大学;2004年
3 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
4 何清;机器学习与文本挖掘若干算法研究[D];中国科学院研究生院(计算技术研究所);2002年
5 赵鹏;复杂网络与互联网个性化信息服务的研究[D];中国科学技术大学;2006年
6 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
7 黄刚;整合与互动[D];中国传媒大学;2007年
8 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
9 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
10 包胜华;基于Web的实体信息搜索与挖掘研究[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
2 刘晓英;知识关联及其应用研究[D];湘潭大学;2010年
3 高森;1999-2008年《中国实用内科杂志》载文数量及质量指标的变化趋势和比较研究[D];中国医科大学;2010年
4 艾伟;基于本体的Web信息文本挖掘与检索服务研究[D];北京信息控制研究所;2010年
5 胥坤;寒亭区广播影视集团广告管理系统设计与实现[D];山东大学;2010年
6 彭文欣;国内服装品牌与代言人的适配性研究[D];东华大学;2009年
7 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
8 蔡尚辉;范例推理在智能车辆监控数据处理系统中的应用[D];河北科技大学;2011年
9 卢革超;基于本体的主题搜索引擎技术研究[D];吉林大学;2011年
10 杨叶坤;协同过滤技术在个性化资源推荐中的应用研究[D];大连海事大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 张立君;徐佳;;人工神经元电路结构的研究与探讨[J];北京印刷学院学报;2006年04期
2 吴恂;黄志忠;;《进境植物检疫性有害生物名录》已发布并实施[J];大经贸;2007年11期
3 董聪;多层前向网络的全局最优化问题[J];大自然探索;1996年04期
4 叶东毅,何萧玲;前馈神经网络的一个改进的BP学习算法[J];福州大学学报(自然科学版);1998年02期
5 林继生,罗金铃,张勇;热带气旋灾害预报服务效益专家评估法[J];广东气象;1999年03期
6 林继生;利用专家评估法作未来10年(2000~2010年)广州市气象灾害影响趋势展望[J];广东气象;2001年02期
7 张毓强;刘朋;;对外传播中文通稿专家评估法的特点与路径[J];对外传播;2010年05期
8 廖晓昕;细胞神经网络的数学理论(Ⅱ)[J];中国科学(A辑 数学 物理学 天文学 技术科学);1994年10期
9 于广滨;李瑰贤;金向阳;白彦伟;;改进的粒子群动态过程神经网络及其应用[J];吉林大学学报(工学版);2008年05期
10 吕岗,谭得健,赵鹤鸣;基于免疫算法的前馈神经网络权值设计[J];计算机工程与应用;2002年17期
中国博士学位论文全文数据库 前1条
1 唐贤伦;混沌粒子群优化算法理论及应用研究[D];重庆大学;2007年
中国硕士学位论文全文数据库 前4条
1 王鹏;基于模糊神经网络语音识别系统的研究[D];太原理工大学;2008年
2 李昆;模糊神经网络在转炉倾动开环矢量控制中的研究[D];武汉科技大学;2008年
3 李玉毛;粒子群算法的研究及改进[D];西北大学;2009年
4 施博;基于量子粒子群算法的图像阈值分割方法研究[D];中南民族大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 徐勇;知识发现及其相关技术的研究[J];安徽教育学院学报;2005年03期
2 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
3 ;科学技术期刊管理办法[J];北京航空航天大学学报;1991年02期
4 郭燕奎;科技论文的检索与主题标引[J];编辑学报;1993年01期
5 游苏宁;当前我国科技期刊发展中的一些误区[J];编辑学报;2001年01期
6 赵晓君,刘永新,郭景富;世界六大著名检索系统与中国科技期刊[J];编辑学报;1996年04期
7 叶雅琴;;科技论文的编辑与检索[J];编辑学刊;1988年03期
8 王秀梅;科技情报分析研究社会化之思考[J];图书与情报;1996年02期
9 计湘婷;管理学逻辑起点的探寻与论证[J];商业研究;2004年12期
10 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
中国博士学位论文全文数据库 前8条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
3 毛军;Web信息服务中受控语言研究[D];中国科学院研究生院(文献情报中心);2002年
4 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
5 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
6 侯海燕;基于知识图谱的科学计量学进展研究[D];大连理工大学;2006年
7 尹丽春;科学学引文网络的结构研究[D];大连理工大学;2006年
8 陈悦;管理学学科演进的科学计量研究[D];大连理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 王胜海;网络智能知识服务系统设计与实现[D];中国科学院研究生院(文献情报中心);2002年
2 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
3 辛明海;个性化信息服务中的本体论自动分类和多Agent技术[D];华侨大学;2002年
4 陈丽;基于XML的知识集成中间件系统的研究与应用[D];南京航空航天大学;2003年
5 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
6 方青;基于本体论的中医药一体化语言系统[D];浙江大学;2004年
7 周孟霞;基于规则学习的中医药文献自动标引系统[D];浙江大学;2004年
8 路菲;内容分析与文献计量的比较与综合研究[D];南京理工大学;2004年
9 吴小雷;基于Ontology的内容分析法的研究[D];南京理工大学;2005年
10 翟李娜;兰州大学出版社图书分销渠道管理研究[D];兰州大学;2006年
【相似文献】
中国期刊全文数据库 前4条
1 安璐;李纲;;国外图书情报类期刊热点主题及发展趋势研究[J];现代图书情报技术;2010年09期
2 唐果;陈宏刚;;基于BBS热点主题发现的文本聚类方法[J];计算机工程;2010年07期
3 甘利人;钱敏;郑翠翠;;《情报理论与实践》近五年论文热点主题综述——祝贺《情报理论与实践》创刊45周年[J];情报理论与实践;2009年07期
4 陆伟;彭玉;陈武;;基于SOM的领域热点主题探测[J];现代图书情报技术;2011年01期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026