收藏本站
《中国科学院研究生院(文献情报中心)》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

自动主题搜索的应用研究

陈定权  
【摘要】: 随着互联网上信息量爆炸性地增长,如何高效、低成本地利用Web信息资源就逐渐成为信息服务机构和最终信息用户所关注的问题。本论文研究目的就是希望通过对主题搜索的应用进行研究,探索Web主题资源的建设方法。Web主题资源自动搜索技术可以充分利用Web上大量的免费资源,自动地搜集Web主题资源,摆脱对专家的依赖,降低建设成本,提高Web主题资源建设的速度、效率和质量。 本论文的研究工作主要包含以下四个方面: (1)研究了主题搜索的基本理论和Web主题资源的建设模式,探讨Web主题资源自动搜索的相关技术,为自动主题搜索提供一个可行的研究方案,设计出一个Web主题资源自动建设的功能框架; (2)分析和实现了一个新型的多模式字符串匹配算法。该算法是以确定性有限状态自动机(DFSA)为基础,结合Quick Search算法而提出的,可以用来提高主题爬行器的网页分析和Web网页分类器的速度。经改造之后,状态自动机所占用的内存不到标准DFSA占用内存的一半,提高了多模式字符串匹配算法的性能。 (3)从社会学、文献计量学和计算机科学等角度分析了Web超链相关知识,并在经典的HITS算法基础上,设计并实现了一个Web主题资源的自动发现技术。另外,利用文献同引和文献耦合的思想,实现了查找相关网页的功能,并与Google和Alexa提供的类似功能进行比较,分析它们在查找相关网页方面的性能。 (4)分析和设计了一个合作式主题爬行器。本论文所设计的合作式主题爬行器,利用了Web超链信息和隧道技术,可以有效地提高主题资源的覆盖度和主题的准确度,在一定程度上克服了一般爬行器的固有缺陷,使得爬行网页的主题覆盖度和主题准确度不再完全依赖于种子站点的数量和质量。合作式主题爬行器适合搜索某个学科且主题宽泛的Web学术性资源。 在研究过程中,笔者采用了文献调查法、分解与合成法和实验法等研究方法,对自动主题搜索的应用方面进行了综合性研究。通过研究,本论文从理论和实践上证明了在目前的技术条件下,Web主题资源建设的自动化是可行的也是有效的,可以为数字图书馆的Web主题资源建设提供方法和技术上的支持。 本论文共包括图60幅,表10个。
【学位授予单位】:中国科学院研究生院(文献情报中心)
【学位级别】:博士
【学位授予年份】:2003
【分类号】:G254.0

【引证文献】
中国期刊全文数据库 前7条
1 邱均平;李江;任全娥;李晔君;;链接分析假设前提的缺陷及修正方案[J];评价与管理;2007年03期
2 孟雪梅;陈丽君;;基于知识创新的信息资源优化建设[J];情报探索;2006年10期
3 陈定权;武立斌;;社会网络视角下的信息推荐[J];情报杂志;2007年11期
4 邓中华;;社会网络、引文网络和链接网络之比较[J];图书馆杂志;2008年09期
5 高凡;信息资源建设的现状与趋势[J];图书情报工作;2004年04期
6 李春旺;Web信息主题采集技术研究[J];图书情报工作;2005年04期
7 邱均平;李江;任全娥;李晔君;;链接分析假设前提的缺陷及修正方案[J];图书情报工作;2007年11期
中国重要会议论文全文数据库 前1条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
【参考文献】
中国期刊全文数据库 前7条
1 邹涛,黄源,张福炎;基于WWW的文本信息挖掘[J];情报学报;1999年04期
2 韩客松,王永成;文本挖掘、数据挖掘和知识管理——二十一世纪的智能信息处理[J];情报学报;2001年01期
3 黄奇,李伟;基于链接分析的学术性WWW网络资源评价与分类方法[J];情报学报;2001年02期
4 邹涛,王继成,张福炎;基于WWW的资料搜集系统的设计与实现[J];情报学报;1999年03期
5 高京文;网络环境下数字资源的建设与利用[J];情报杂志;2001年06期
6 王斌;垂直门户及垂直门户信息服务模式可行性研究[J];图书情报工作;2001年01期
7 向桂林;学科分类知识库的构建及其在网络资源分类中的作用[J];图书情报工作;2003年02期
【共引文献】
中国期刊全文数据库 前10条
1 黎琳;;Web内容挖掘在数字图书馆中的应用[J];深图通讯;2005年04期
2 王小蔚;关于图乘法公式的探讨[J];萍乡高等专科学校学报;2001年04期
3 秦珂;;迈向电子信息时代的图书馆[J];平原大学学报;1996年03期
4 张瑞;黄敏;;家畜养殖业中数值分析方法的运用[J];新乡学院学报(自然科学版);2009年06期
5 黄影,张晓林;智能检索引导服务的分析与设计[J];情报科学;2001年05期
6 李村合;网络信息挖掘技术及其应用研究[J];情报科学;2002年11期
7 黄晓斌;基于网络的文献知识发现系统研究[J];情报科学;2003年02期
8 李秀云;知识组织社会化智能服务[J];情报科学;2003年03期
9 沈丽宁;网络信息资源的深加工[J];情报科学;2003年08期
10 周爱民;知识经济时代的知识组织社会化智能服务[J];情报科学;2003年09期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 李美芹;张双喜;许冬梅;刘翠娜;;不同类型散热器流量变化对散热量的影响[A];中国建筑学会建筑热能动力分会第十七届学术交流大会暨第八届理事会第一次全会论文集[C];2011年
4 陈联裙;张群;张锦水;潘耀忠;;实割实测数据支持下的县级尺度冬小麦产量遥感估测[A];全国农业遥感技术研讨会论文集[C];2009年
5 刘福平;杨长春;;孔隙度敏感系数的数值计算[A];中国科学院地质与地球物理研究所二○○三学术论文汇编·第四卷(油气资源)[C];2003年
6 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
7 刘庆恒;王巨丰;覃丙川;郭奕亿;;非线性动态电路的数值解法[A];广西电机工程学会第七届青年学术交流会论文集[C];2002年
8 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
9 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
10 陈丽君;;现代资讯服务的三大特点[A];海峡两岸资讯服务与教育新方向研讨会大会交流论文[C];2002年
【同被引文献】
中国期刊全文数据库 前10条
1 周宁,陈传艺,林蓉;Internet信息资源索引方法的研究[J];情报科学;1999年06期
2 俞培果,邱均平;Web页面链接动机分析及链接测度研究[J];情报科学;2003年03期
3 黄继东,苏秋侠;E-print网络学术资源初探[J];情报科学;2004年07期
4 董江山,胡吉祥,邱均平;链接分析法及其应用[J];情报科学;2004年09期
5 郭少友;元搜索引擎的原理与设计[J];情报科学;2005年02期
6 陈杰;孙忠贵;王玲;;基于SOFM网络的快速信息检索[J];情报科学;2006年02期
7 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期
8 何莘;王琬芜;;自然语言检索中的中文分词技术研究进展及应用[J];情报科学;2008年05期
9 吴茵茵;;中美大学网络影响因子研究[J];情报科学;2008年07期
10 段宇锋;;网络信息存续状态研究[J];情报科学;2008年08期
【二级引证文献】
中国期刊全文数据库 前10条
1 付鑫金;王效岳;李长玲;;基于灰关联度的大学网站链接数据分析[J];情报科学;2009年02期
2 胡吉明;;社会化推荐服务研究述评[J];情报科学;2011年02期
3 苏芳荔;;引文网络中入度分布的特征研究——以图情领域为例[J];情报科学;2011年09期
4 赵蓉英;陈必坤;;基于Nutch的图情博客搜索引擎的设计与实现[J];情报科学;2012年04期
5 邱均平;李晔君;李江;;共链分析的缺陷及其解决方案研究[J];情报理论与实践;2008年02期
6 赖院根;王星;;面向检索排序的论文重要度测算[J];情报理论与实践;2009年10期
7 胡琼芳;曾建勋;;基于多共现的文献相关度判定研究[J];情报理论与实践;2010年08期
8 仲超生;;复合图书馆形态下高校信息资源建设研究[J];情报探索;2009年05期
9 苏芳荔;;文献引文分析、网络链接分析和网络引文分析的比较[J];情报探索;2010年01期
10 苏娜;张志强;刘志辉;;基于链接分析的图林博客显著度分析[J];情报资料工作;2010年01期
【二级参考文献】
中国期刊全文数据库 前10条
1 王世文,李龙洙;面向知识经济时代的供应链管理[J];情报科学;2001年07期
2 严娜,孙凌,李宏轩;从知识组织到知识自组织[J];情报科学;2001年07期
3 李广建,黄崑;元搜索引擎及其主要技术[J];情报科学;2002年02期
4 曹东,韩全惜,庄军;运用情报检索语言理论与方法完善搜索引擎的功能[J];情报理论与实践;2000年01期
5 陶跃华,孙茂松;搜索引擎中相关性反馈技术[J];情报理论与实践;2001年04期
6 李勇;网络文本数据搜索引擎与搜索技术[J];情报理论与实践;2001年04期
7 刘伟权,钟义信;自然语言处理与全文情报检索[J];情报理论与实践;1997年01期
8 冯项云;检索系统中的相关反馈机制[J];情报理论与实践;1998年06期
9 丁蔚;从信息管理到知识管理[J];情报学报;2000年02期
10 韩彬斌,王培康;Web网页识别算法研究[J];情报学报;2001年01期
【相似文献】
中国期刊全文数据库 前10条
1 沙杰,刘战术,陈国防;中小径管道爬行器控制系统设计[J];测控技术;2000年04期
2 孙萍,孙麟治;细小管道爬行器的研究与开发[J];机电一体化;2000年05期
3 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
4 李园伟;;面向高校主题搜索引擎的的爬行器设计[J];电脑知识与技术;2011年16期
5 林其东;陈传波;郑乐丹;张一曼;;数字图书馆主题搜索引擎的设计与实现[J];计算机应用研究;2009年08期
6 赫枫龄,左万利;用有向图法解决网页爬行中循环链接问题[J];吉林大学学报(理学版);2004年03期
7 ;博士研究生论文文摘[J];现代图书情报技术;2004年03期
8 李卫疆;赵铁军;;面向Blog的爬行算法[J];计算机工程与应用;2008年31期
9 李卫疆;赵铁军;朴星海;;一种新的面向主题的爬行算法[J];计算机应用研究;2009年05期
10 文必龙;叶静;;基于SES通用爬行器的设计与实现[J];哈尔滨商业大学学报(自然科学版);2011年04期
中国重要会议论文全文数据库 前10条
1 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 潘荣宝;范宇;;X射线管道爬行器在合肥市天然气管道检测工程中的应用[A];安徽省装备制造业发展论坛会论文集[C];2003年
3 高进伟;刘猛;李海凤;;水平井井下自适应爬行器的研制[A];2005年石油装备技术发展学术交流年会论文集[C];2005年
4 朱建刚;;狂欢:一种颠覆的基调——论《大师与玛格丽特》中的狂欢化主题[A];走向21世纪的探索——回顾·思考·展望[C];1999年
5 张君根;;钢结构滑移施工技术实例与分析[A];中国钢结构协会第五次全国会员代表大会暨学术年会论文集[C];2007年
6 刘凡;陈兴蜀;王文贤;;对Gnutella2网络的节点分布特性的研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
7 王盛军;;基于C8051F020 SOC爬行器控制系统设计与实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
8 赵光慧;;美国黑人文学主题初探[A];外国文学论集——世纪末的探索与思考[C];1997年
9 刘建普;许立新;赵园涛;;钢结构整体液压同步累积滑移施工——国家体育馆钢屋盖施工总结[A];中国大型建筑钢结构工程设计与施工[C];2007年
10 刘建普;赵园涛;许立新;;钢结构整体液压同步累积滑移施工——国家体育馆钢屋盖施工总结[A];中国钢结构协会第五次全国会员代表大会暨学术年会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 李健飞;北方无损检测公司第四代射线爬行器研制成功[N];中国石油报;2001年
2 记者  徐敏 实习生 陆瑶;机器人将沉入海底检测油气管道[N];解放日报;2006年
3 ;紧紧抓住发展这个主题[N];中国邮政报;2005年
4 本报记者 章国斌;全国旅交会唱响红色主题[N];江南游报;2005年
5 曹玉松;安全生产是企业永恒的主题[N];中煤地质报;2005年
6 殊逊;“网络与书”提倡主题阅读[N];中国文化报;2005年
7 早报记者 乐琰;“主题”开发再掀投资潮[N];东方早报;2005年
8 记者 施建 实习生 赖丹花;购物中心初尝“层层主题文化”[N];民营经济报;2005年
9 沙建国 董克菊;最佳主题党日:帮民富 暖民心[N];中国档案报;2005年
10 记者 黄景莉 夏水夫;长三角16城市行谋划房贷发展[N];中国城乡金融报;2005年
中国博士学位论文全文数据库 前10条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 郑毅;特殊环境下图像测量关键技术研究[D];西安电子科技大学;2008年
3 许跃敏;基于主题和主体框架的工程应用软件开发技术研究[D];浙江大学;2002年
4 曹林红;“国民性”主题的流变与中国现代文学[D];吉林大学;2007年
5 易乐湘;马克·吐温青少年题材小说的多主题透视[D];上海师范大学;2007年
6 尤海燕;明代折子戏研究[D];首都师范大学;2009年
7 李亚萍;20世纪中后期美国华文文学的主题比较研究[D];暨南大学;2004年
8 刘亮;晚唐乐府诗研究[D];南京师范大学;2005年
9 王观松;“三个代表”重要思想科学体系探索[D];武汉大学;2004年
10 吴晓风;《红楼梦》评点研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 李建永;长距离输油管线电动爬行器的研究[D];大连理工大学;2007年
2 董东野;互联网爬行器的研究与实现[D];吉林大学;2010年
3 陈富强;水冷壁管爬行器设计研究[D];北方工业大学;2012年
4 朱金涛;基于超链接搜索策略网络爬行器的设计与实现[D];吉林大学;2007年
5 殷晟;具有页面更新机制的网页爬行器的设计与实现[D];吉林大学;2008年
6 赵双花;论五四前后小说译作对创作的影响[D];南京师范大学;2005年
7 王静;张祜纪游诗研究[D];河北大学;2006年
8 迟海;论宋词中的“悲秋”与“士不遇”主题(北宋篇)[D];吉林大学;2007年
9 王良彬;从浅唱低吟到泛着阵痛的独语[D];西南大学;2007年
10 彭颖;艺术的纸[D];中央美术学院;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026