基于本体论的精细化数据分析
【摘要】:随着互联网技术的发展,嵌入元数据(RDF,RDFa,Microformats等)的网络语义文档包含越来越多的结构化和半结构化数据。已有数以亿计的该类文档可以访问,并且它们的数量正在迅速增长。为了实现半结构化数据能够供机器和用户一样的阅读与理解,必须对半结构化信息检索和分析提供有效的手段。语义网中的元数据不仅描述事物的属性,还描述事物之间的层次关系。传统的关联规则挖掘只关心事物本身,而不关心事物的本质,以至于产生大量无用的规则。通过高层次事物之间的挖掘,能够得到更有用的关联规则。计算机通过语义数据能够理解用户搜索需求,智能给出搜索结果。本文通过一种实体搜索模型,把传统基于“文本”的搜索改变为基于“对象”的搜索,使得搜索引擎能够更加智能地理解用户的真实需求。该实体搜索模型将半结构化数据转化成节点标签树存储在分布式倒排索引中,通过内容查询和结构查询实现智能搜索。本文同时设计了通过分布式倒排索引实现频繁项集挖掘,给出的DiiElact算法通过事务集合垂直划分和并行计算解决了数据挖掘过程中求交集运算效率低下和内存不足问题,实验证明了算法的高效、可扩展。利用实体搜索模型得到事物之间的层次关系,结合DiiElact算法,实现高层次事物之间的关联规则挖掘。
|
|
|
|
1 |
肖基毅,邹腊梅,刘丰;频繁项集挖掘算法研究[J];情报杂志;2005年11期 |
2 |
蔡进;薛永生;张东站;;基于分区分类法快速更新频繁项集[J];计算机工程与应用;2007年09期 |
3 |
胡学钢;徐勇;王德兴;张晶;;基于多剪枝格的频繁项集表示与挖掘[J];合肥工业大学学报(自然科学版);2007年04期 |
4 |
胡学钢;刘卫;王德兴;;基于剪枝概念格模型的频繁项集表示及挖掘[J];合肥工业大学学报(自然科学版);2007年09期 |
5 |
栾鸾;李云;盛艳;;多关系频繁项集的并行获取[J];微电子学与计算机;2008年10期 |
6 |
李彦伟;戴月明;王金鑫;;一种挖掘加权频繁项集的改进算法[J];计算机工程与应用;2011年15期 |
7 |
陈立潮,张建华,刘玉树;提高频繁项集挖掘算法效率的方法研究[J];计算机工程与应用;2002年10期 |
8 |
朱玉全,孙志挥,赵传申;快速更新频繁项集[J];计算机研究与发展;2003年01期 |
9 |
宋宝莉;张帮华;何炎祥;朱骁峰;;带有多个可转化约束的频繁项集挖掘算法[J];计算机科学;2003年12期 |
10 |
王自强,冯博琴;频繁项集的简洁表示方法研究[J];系统工程理论与实践;2004年07期 |
11 |
颜跃进;李舟军;陈火旺;;频繁项集挖掘算法[J];计算机科学;2004年03期 |
12 |
柳彦平,王文杰,荣江;频繁项集挖掘算法研究[J];微型机与应用;2005年04期 |
13 |
刘晓玲,李玉忱;一种利用逻辑“与”运算挖掘频繁项集的算法[J];中国科技信息;2005年15期 |
14 |
陈凯
,冯全源;基于矩阵伪投影策略的频繁项集挖掘方法[J];微计算机信息;2005年23期 |
15 |
阮幼林;李庆华;杨世达;;一种基于事务树的快速频繁项集挖掘与更新算法[J];计算机科学;2005年02期 |
16 |
袁鼎荣,李波;频繁项集挖掘技术述评[J];广西民族学院学报(自然科学版);2005年01期 |
17 |
马猛,倪志伟;基于异集产生频繁项集的研究[J];计算机工程与应用;2005年08期 |
18 |
陈慧萍;王建东;王煜;;频繁项集挖掘的研究与进展[J];计算机仿真;2006年04期 |
19 |
黄龙军;章志明;段隆振;黄明和;;一种基于无向项集图的频繁项集挖掘算法[J];计算机工程与应用;2006年16期 |
20 |
唐德权;王绪峰;朱林立;谢文君;;一种快速挖掘频繁项集算法的研究[J];湖南科技学院学报;2006年05期 |
|