基于XML文档结构语义的信息检索方法与应用研究
【摘要】:
随着电力信息化的发展,不同的供电企业都建立了各自的管理信息系统,在实际应用中积累了大量数据,研究从海量的不同电力企业信息中快速而灵活地查询数据信息有利于信息资源的充分利用和管理人员的决策。本文对XML索引技术、XML结构语义检索技术、变电设备信息CIM模型及其XML表示、基于XML的变电设备信息检索、家族变压器状态变化规律进行了深入的研究,主要的研究成果如下:
1.提出了一种新的XML索引结构,包括倒排元素标签索引(ETI)、倒排元素值索引(ECI)及结点层次-路径索引(NLPI)。该索引结构既考虑了XML文档的文本内容信息,又考虑了其结构信息,此外还适合于XML结构语义检索算法的实现。
2.进一步研究和扩展了XML结构语义概念,提出了多个结点语义相关判断时具有的规律,并加以证明,为XML结构语义检索算法的研究提供理论基础。在此基础上提出了一种新的基于“标签—关键词”查询的XML结构语义搜索算法。该算法在判断多个结点间的语义相关时避免了大量的结点对相连关系的判断,大大提高了检索速度。
3.提出基于CIM标准的变电设备信息模型及变电设备信息XML数据规范,分析了基于XML的变电设备信息检索系统各组成部分及其关键技术。基于CIM标准可以使变电设备信息XML文档与电力行业其它符合CIM标准的信息模型兼容;有了变电设备信息的XML数据规范,可以使不同供电企业异构的变电设备信息数据遵循XML数据规范,有相同的语义,有利于提高XML搜索引擎的检索效率。
4.首次提出应用聚类分析方法研究变压器家族状态变化的规律,以确定变压器状态评估中家族质量缺陷对变压器状态的影响。提出了基于值距离和曲线斜率距离的凝聚层次聚类算法,用于变压器家族状态变化规律的聚类分析。实例分析表明,本文的算法优于传统的凝聚层次聚类算法。提出根据家族状态变化规律确定家族质量缺陷的影响分值,给出了家族质量缺陷影响的评分方法。利用本文的聚类结果对同一家族另外一台变压器的状态变化进行了预测,结果与实际相符,说明家族状态变化规律的研究对变压器状态综合评估、故障预测具有重要意义。
|
|
|
|
1 |
徐玉琴;曹振锋;;基于CIM的电力系统图形平台[A];中国高等学校电力系统及其自动化专业第二十四届学术年会论文集(下册)[C];2008年 |
|