收藏本站
《黑龙江大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于图的科技文献相似性搜索关键技术研究

朱戈  
【摘要】:科学技术是极具传承性的事业,任何一个科技工作者要取得好的进展,都离不开前人或他人的经验和成果。近年来,随着计算机、生物、化学、医药等领域的研究成果发布周期越来越短,科技文献数目加速增长。目前,仅中国知网能检索到的文献就超过7000万篇,平均每天出版文献28000篇。面对日益增长的文献资源,如何了解当前研究领域内前人或他人的主要的研究成果、诱导类比、联想各种创新思维,促进科学发现和技术创新,快捷准确地搜索相似文献已成为人们关注的热点问题。 随着生物信息学、化学情报学、社会网络分析的广泛应用,图在诸如蛋白质结构、神经网络等复杂结构建模方面日趋重要。在现实世界中,有许多科技、商业、经济、生化等领域的问题可以抽象成图上的相似性搜索问题。基于这一思想,本文提出了文献拓扑图模型,其中包括无向文献拓扑图和有向文献拓扑图,将文献的相似性搜索问题转化为图搜索问题。论文工作主要包括以下两个方面: 首先,基于无向文献拓扑图提出了一种新的文献相似度评估方法,该方法结合了对文献内容与文献间的引用关系的分析,并应用容斥原理计算文献间相似度;提出了一种基于Erdǒs理论的文献相似性搜索算法—Hub-N,该算法采用了广度优先与剪枝策略相结合的搜索技术,缩小了扫描文献范围,提高了搜索效率,并通过实验验证了其有效性和可行性。同时,Hub-N算法也适用于其他领域的相似性搜索。 其次,分析了PageRank算法应用于科技文献相似性搜索的可行性、优点和不足,针对PageRank的不足提出了一种改进的PageRank算法——IPR,IPR算法基于有向文献拓扑图,结合了对文献内容和文献间的引用关系的分析,从内容分析角度解决相关性需求,从引用分析角度解决权威性需求,综合计算文献间相似度,提高了搜索结果的准确率。最后,通过实验验证了IPR算法的有效性和可行性。
【学位授予单位】:黑龙江大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前7条
1 李勇,徐振宁,张维明;Internet个性化信息服务研究综述[J];计算机工程与应用;2002年19期
2 宋玲;马军;连莉;张志军;;文档相似度综合计算研究[J];计算机工程与应用;2006年30期
3 李绍华;高文宇;;搜索引擎页面排序算法研究综述[J];计算机应用研究;2007年06期
4 吴淑燕,许涛;PageRank算法的原理简介[J];图书情报工作;2003年02期
5 高建群,张荣安,陈吉平,施业;期刊引文分析及其情报价值[J];图书情报工作;2004年01期
6 李红;;中国精品学术期刊数字出版平台刍议[J];图书情报工作;2009年16期
7 曹冬林;林达真;;文本检索模型综述[J];心智与计算;2007年04期
中国硕士学位论文全文数据库 前1条
1 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 杨瑞朋;刘凤荣;彭祥新;;智能Agent技术在个性化信息检索中的应用[J];兵工自动化;2008年01期
2 胡泽文;;基于WordNet和SUMO本体集成的自动语义检索及可视化模型[J];国家图书馆学刊;2012年02期
3 张丽君;熊爱民;;编辑对医学期刊参考文献的干预[J];编辑学报;2008年05期
4 田晓珍;尚冬娟;;Web的个性化服务[J];重庆工学院学报(自然科学版);2008年07期
5 沈竞;蒋侨;;DSTFA分布式短文本过滤算法[J];四川兵工学报;2011年10期
6 王海花;张继忠;杨新华;黄玺;;兰州大学草地农业科技学院硕士学位论文引文分析[J];草业科学;2011年06期
7 李财富;许见亮;;2004—2005年《档案学通讯》载文、作者与引文统计分析[J];档案学通讯;2006年05期
8 李财富;许见亮;;2003~2005年《档案学研究》载文、作者与引文统计分析[J];档案学研究;2006年04期
9 刘霞;阳小华;;基于本体的个性化信息检索研究[J];电脑知识与技术;2009年25期
10 王磊;;高校用户学术期刊需求保障分析[J];大学图书情报学刊;2006年04期
中国重要会议论文全文数据库 前10条
1 张世佳;黄鑫;王衡;汪国平;;一种基于综合区域比较的图像检索方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 张玉连;陈琳娜;陈金森;;基于本体的个性化服务用户模型研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
3 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
5 刘芬;;2006-2008年《情报理论与实践》载文、作者与引文统计分析[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
6 卢小文;;学术期刊出版数字化的路径选择——兼议学术期刊与数据库出版平台的关系[A];机制创新·合作共赢——第8届全国核心期刊与期刊国际化、网络化研讨会论文集[C];2010年
7 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
8 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 刘全升;姚天昉;;基于关联度模型的文本倾向性检索研究[A];第六届全国信息检索学术会议论文集[C];2010年
10 张华;姚莉;张英朝;;个性化决策助手Agent的参考模型与应用研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 陈福集;电子政务系统中面向公众的信息集成化管理与个性化服务研究[D];合肥工业大学;2004年
3 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年
4 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
5 金博;面向专利和零部件的设计知识检索方法[D];大连理工大学;2009年
6 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
7 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
8 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
9 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
10 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
2 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
3 李春;协同过滤推荐算法的研究[D];湘潭大学;2010年
4 王娟;基于本体的课程资源管理系统研究[D];江西师范大学;2010年
5 徐旭;基于决策树的Web应用系统个性化身份验证研究[D];合肥工业大学;2010年
6 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
7 史磊峰;移动垂直搜索系统的研究[D];北京交通大学;2010年
8 丁士敏;基于Ajax/Lucene的站内搜索技术研究与实现[D];西安电子科技大学;2008年
9 喻辉;疾病预防控制中心信息化研究[D];西安电子科技大学;2008年
10 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 孟连生;引文分析方法在科技期刊评价工作中的应用[J];编辑学报;1999年04期
2 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
3 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期
4 陈江洪;;我国物理学期刊的文献计量学指标分析[J];中国科技期刊研究;1997年03期
5 中国科技论文统计与分析课题组;;1998年中国科技论文统计与分析简报[J];中国科技期刊研究;2000年01期
6 中国科技论文统计与分析课题组;;2000年中国科技论文统计与分析简报[J];中国科技期刊研究;2002年01期
7 程维红;任胜利;王应宽;方梅;路文如;;中国科协科技期刊网络化出版现状[J];中国科技期刊研究;2008年03期
8 陈辉;;中国科技期刊网络化发展方向[J];中国科技期刊研究;2009年01期
9 任胜利,柴育成,姚玉鹏,肖珑,张春红,苏玉华;地球科学国际主流期刊的引文分析[J];科学通报;2002年01期
10 汤韬;;SQL调整与优化[J];程序员;2003年02期
中国博士学位论文全文数据库 前1条
1 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
【相似文献】
中国期刊全文数据库 前10条
1 张兆功,李建中;基于广义超曲面树的相似性搜索算法[J];软件学报;2002年10期
2 杨敏,王志坚,尹燕敏;时间序列相似性搜索算法研究[J];山东师大学报(自然科学版);2001年04期
3 李建中,张兆功;超平面树:度量空间中相似性搜索的索引结构[J];计算机研究与发展;2003年08期
4 杨风召,朱扬勇;一种有效的量化交易数据相似性搜索方法[J];计算机研究与发展;2004年02期
5 肖晶;黄国兴;赵若韵;黄豫蕾;;时间序列的快速相似性搜索改进算法[J];计算机科学;2003年09期
6 薛前;徐德昌;;时间序列的相似性测度[J];生物信息学;2009年01期
7 蒋嵘;基于形态表示的时间序列相似性搜索[J];计算机研究与发展;2000年05期
8 方堃;何锐邦;刘新;叶德建;;基于多媒体特征的抗扰动P2P搜索算法[J];计算机工程;2010年08期
9 李邦云,程莉;数据挖掘在电力负荷相似性研究中的应用初探[J];湖南电力;2003年05期
10 汤胤;;时间序列相似性分析方法研究[J];计算机工程与应用;2006年01期
中国重要会议论文全文数据库 前10条
1 魏华春;张瑞;李爱秀;魏冬青;;同半胱氨酸腺苷水解酶抑制剂的虚拟筛选和设计[A];中国化学会第二十五届学术年会论文摘要集(上册)[C];2006年
2 张兆功;李建中;;度量空间中相似性搜索的并行算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
3 郭彦伸;郭宗儒;;基于骨架迁越(Scaffold Hopping)的计算机辅助药物分子设计[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
4 李娆娆;雷沛霖;黄兰岚;原思通;刘营;;芫花药材高效液相指纹图谱研究[A];中华中医药学会四大怀药与地道药材研究论坛暨中药炮制分会第二届第五次学术会与第三届会员代表大会论文集[C];2007年
5 金保华;高湘飞;柳雪环;张磊;;基于XML框架与CBR智能预案管理的研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
6 张虎;郭玉翠;宫尚宝;;移动Ad-hoc网络中基于第三方观察机制的信任管理研究[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
7 王志松;;决策树中数据遗失值填充方法的研究[A];2001年中国智能自动化会议论文集(下册)[C];2001年
8 汤丽华;赵吴静;金菊良;张明;;基于熵的水质综合评价的相似插值模型[A];第八届中国管理科学学术年会论文集[C];2006年
9 王娟;;一种基于粗糙集理论的操作风险判别方法[A];科学发展观与系统工程——中国系统工程学会第十四届学术年会论文集[C];2006年
10 刘晓林;郁滨;;基于相似度的遗传算法模式理论研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
中国重要报纸全文数据库 前10条
1 证券时报记者  韩如冰;基金投资相似度趋高[N];证券时报;2006年
2 聂磊 曹进 罗国安;中药指纹图谱相似度评价方法各有千秋[N];中国医药报;2006年
3 孟祥宁 张亚萌 郭青剑;山寨文化:是一种什么样的文化[N];中国艺术报;2009年
4 聂磊;曹进;罗国安;中药指纹图谱相似度评价方法作用各一[N];中国医药报;2005年
5 海潮;俄研究发现妊娠中毒症疑与夫妇HLA基因相似度有关[N];中国医药报;2007年
6 栾海;妊娠中毒症可能与夫妇 HLA基因相似度有关[N];医药经济报;2007年
7 沈阳药科大学药学院 孙国祥;中药指纹图谱研究新进展[N];中国中医药报;2007年
8 记者 李学梅;研究证实:父亲“偏爱”与自己相像的孩子[N];新华每日电讯;2009年
9 小新;妊娠中毒症与夫妇HLA基因相似度有关[N];中国医药报;2007年
10 天相投顾 王聃聃;投资同质化 基金繁荣背后的痛[N];证券时报;2007年
中国博士学位论文全文数据库 前10条
1 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
2 李卫民;流数据查询算法若干关键技术研究[D];东华大学;2008年
3 顾本柏;客体相似性表征的认知和发展机制研究[D];西南大学;2011年
4 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
5 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
6 肖宇;聚类分析及其在图像处理中的应用[D];北京交通大学;2012年
7 游扬声;一般分布模式下GIS位置数据的不确定性研究[D];武汉大学;2005年
8 刘兵;时间序列与聚类挖掘相关技术研究[D];复旦大学;2006年
9 孙平;高科技品牌延伸的评价模型与消费者评价实证研究[D];山东大学;2008年
10 刘晓东;面向无线传感器网络数据传输与查询的节能算法与理论研究[D];中国海洋大学;2009年
中国硕士学位论文全文数据库 前10条
1 朱戈;基于图的科技文献相似性搜索关键技术研究[D];黑龙江大学;2011年
2 凌康;基于位置敏感哈希的相似性搜索技术研究[D];南京大学;2012年
3 吕金涛;基于频繁子模式的图形相似性搜索研究[D];重庆大学;2009年
4 杨敏;水文时间序列相似性模型的研究与应用[D];河海大学;2002年
5 方堃;基于特征的P2P多媒体文件搜索系统的研究与实现[D];复旦大学;2009年
6 谷赫;时间序列的数据挖掘在证券预测分析中的应用研究[D];吉林大学;2005年
7 刘美玲;Web服务注册与相似性搜索技术的研究与实现[D];西安电子科技大学;2009年
8 陆薛妹;面向相似性的时间序列数据挖掘研究[D];东华大学;2007年
9 靳碧;数据挖掘算法及其生产优化应用研究[D];浙江大学;2006年
10 毛云建;多维时间序列数据挖掘的方法研究及应用[D];上海交通大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026