收藏本站
《北京工业大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于分布式多Agent系统的二层专利数据库信息获取系统研究

康宁  
【摘要】:为了提高北京市知识产权预警能力和高新技术产业竞争力,需要我们构建知识产权预警平台,为企业、政府和中介机构提供理论、方法和技术支持。而进行这各项研究最基本的就是有大量而准确的面向主题的专利信息。目前,虽然有人针对于专利数据库信息获取进行了研究,但是在数据源关系、效率及易用性方面还是存在着缺陷。 由于德文特专利数据库是建立在各国专利数据库之上的主题数据库,其中的专利信息是由专业的专利分析人员将各国专利数据库中的信息整合编译过之后而形成的,具有很高的参考价值。而德文特专利数据库中只包含了专利的主题信息,不能够支持专利详细信息分析,需要到原始数据库中查询下载专利详细内容。 本文通过使用分布式的系统结构,研究了从德文特专利数据库到USPTO专利数据库的二层专利数据源信息获取机制。系统采用模块化思想,抽象为四个模块,并通过使用分布式结构提高了专利抽取速率,并开发具有针对性的负载均衡调度算法,实现了整个系统的负载均衡。其中涉及到Multi-Agent技术、XML相关技术、分布式系统技术等。同时,为了提高系统易用性,为用户提供了基于自主标注的信息抽取模板生成功能模块,用户不需要任何专业知识即可生成信息抽取XSLT。最后,针对于下载到本地的专利信息,生成专利统计文件,为用户进行专利分析提供数据基础。 本文的创新之处在于:第一,综合运用多种方法,实现了多源异构层次化专利数据库的专利信息抽取,并使用分布式多Agent系统,解决的专利信息的抽取速率问题。第二,针对于专利信息抽取的特点,制定了具有针对性的负载均调度指标体系,并采用了轮询式的负载均衡调度算法,使系统的负载均衡调度更为高效。第三,使用DOM、锚点、XSLT等技术,并结合自主设计的空白节点剪枝算法和动态节点剪枝算法,通过两颗源于深网的信息页面匹配,获得页面模板元数据,并由用户对模板的标注,实现了信息抽取规则的简易生成。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.13

 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026