收藏本站
《大连理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

Web环境下文献信息的提取与匹配研究

王乐超  
【摘要】: 随着互联网技术的发展,Web已经成为一个信息量巨大的数据源,如何有效利用和管理这些信息成为研究热点。在文献信息管理领域,很少有方法提到如何有效地进行文献信息的自动和批量提取,并以统一接口向用户提供服务。某大学管理学院科研管理系统的开发也对文献信息的自动搜集提出了新的要求。因此,本文主要研究内容是Web主题页面信息提取的方法和利用Web提取专业文献信息。 在主题Web页面信息提取方面,提出了一种利用HTML树节点长度的主题网页信息提取方法。利用主题网页结构上的特点,根据节点长度进行主题内容的识别,从而进行进行页面信息的提取。这种方法与传统的Web页面信息提取方法相比,具有较小的复杂度和较高的准确率。实验证明本文所提方法可以很好的用于主题网页的信息抽取。 在专业文献信息的自动提取上,本文总结传统的模板生成方法,针对同一网络数据库中文献信息页面在结构上具有非常高的相似性的特点,提出了基于HTML树和模板的文献信息提取方法。将页面结构相似度的度量方法用于模板的自动生成,将自动生成的模板用于文献信息的自动提取。应用页面结构相似度进行文献页面的自动分类具有很高的准确率,将同一类页面应用同一模板进行目标信息的抽取非常有效。实验结果证明了本文所提方法在提取文献信息上的有效性。 将本文所提的文献信息提取方法,应用于某大学管理学院科研管理系统的开发,实现文献信息的自动采集,取得了很好的效果,方便了科研工作人员。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.09

【相似文献】
中国期刊全文数据库 前10条
1 徐浩;严帅;;基于web的实验报告提交系统[J];科技创新导报;2011年17期
2 赵丽娜;周吉顺;;基于WEB的高校网上选课系统的设计与实现[J];电脑知识与技术;2011年18期
3 米新英;;基于Web的通用商品报价系统的研究与实现[J];北华航天工业学院学报;2011年03期
4 周庆;;知识管理背景下网页信息档案化管理的思考[J];兰台世界;2011年15期
5 朱启英;李明霞;穆玉明;张源明;;基于WEB的考试系统在医学远程教育中的应用[J];中国高等医学教育;2011年06期
6 段静波;潘惠苹;;基于WEB的学院教务管理系统设计与应用[J];电脑知识与技术;2011年17期
7 范毅君;马永威;;浅谈门户网站的设计与在油田中的应用[J];中国石油和化工标准与质量;2011年07期
8 潘生;;基于WEB的人力资源管理专业亲验式教学资源库系统设计[J];电脑知识与技术;2011年23期
9 杜婷;陶克斌;夏勤;;基于Web的无刷新即时通讯设计与实现[J];重庆科技学院学报(自然科学版);2011年04期
10 王玉华;;Unix平台下的数据库查询开发工具(Web-DTools)的设计与实现[J];信息与电脑(理论版);2011年06期
中国重要会议论文全文数据库 前10条
1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报特约撰稿 张娟;用Web 2.0提升知识管理效率[N];计算机世界;2008年
3 厉民;金融风暴冲击Web2.0产业[N];人民邮电;2008年
4 电脑商报记者 周雪;Web安全市场须冷却慎行[N];电脑商报;2008年
5 郭川;Web2.0:新花样层出不穷[N];人民邮电;2008年
6 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
7 本报记者 李飞虎;Web 2.0[N];中国计算机报;2008年
8 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
9 商报记者 吴辰光;Web2.0凸显空洞概念[N];北京商报;2009年
10 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
中国博士学位论文全文数据库 前10条
1 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
2 叶育鑫;语义Web下的知识搜索及其核心技术[D];吉林大学;2010年
3 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
4 孙静宇;基于CBR的协同Web搜索研究[D];太原理工大学;2010年
5 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
6 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
7 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
8 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
9 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
10 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
2 王立建;中文web文本过滤技术研究[D];中北大学;2010年
3 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年
4 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
5 王伟;搜索引擎下Web分类技术研究[D];内蒙古科技大学;2011年
6 周浩;面向网络舆情分析的Web数据源获取关键技术研究[D];西安理工大学;2010年
7 张韦;基于语义的Web主题提取的研究[D];湖北工业大学;2011年
8 靳凯;Web安全检测平台关键技术研究与应用[D];北京邮电大学;2011年
9 刘嘉;Web结构挖掘研究[D];西安电子科技大学;2009年
10 马燕;基于快速相似度的Web结构挖掘的研究[D];南京信息工程大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026