收藏本站
收藏 | 论文排版

基于SALmap方法的属性抽取的研究与实现

张银银  
【摘要】:随着计算机和互联网等新兴媒体的迅猛发展,如何从海量的网页文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,传统搜索引擎在性能和用户体验上受到了较大的挑战,以互联网属性抽取技术为核心的研究正是在这样的背景下发展起来的。属性抽取技术具有非常广泛的应用。它可以应用于信息检索之后对相关的实体进行指定属性信息的抽取,使信息查找过程变成信息理解过程,从而把传统的信息检索系统变成智能系统,以用户更满意的方式输出信息。也可以将信息抽取技术应用于数据挖掘、自动问答系统等研究领域,和这些领域相辅相成,共同发展。 本文介绍了基于属性标签映射的互联网实体属性抽取的概念、架构与关键技术。针对某些特定类型的实体,即产品,从网页文本中抽取有价值的实体属性信息,提供给用户。由于网页实体属性标签呈现出语义同义性现象,找出属性和标签之间的映射关系是研究的重点,本文提出了SALmap方法,利用正则表达式定义数据格式规则,使用seed方法生成常用候选属性标签集合,对标签集合使用最大熵模型构建属性标签映射,同时,基于得到的属性标签映射,对实体实例数据源区域进行属性标注,最后应用隐马尔可夫模型对实体的相关属性进行抽取。在实验中,针对本系统,对隐马尔可夫模型的相关算法进行了改进,提高了模型的输入参数精度、学习能力和属性抽取的准确度。 为了评估互联网实体属性抽取系统及各部分组件的性能,实验改进过程中的性能变化,本文在Java、Eclipse的架构上,进行了基于构建属性标签映射的互联网实体属性抽取的研究,建立了以属性标签模型为基础的领域无关的无监督学习性能评价框架,提高了系统框架的可移植性。 最后,本文结合实际应用,使用SALmap方法,搭建了一个属性抽取系统,通过评价系统的性能指标,证实SALmap方法是有效的,能够显著提高页面实体属性的抽取性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 何淑贤;刘桂枝;李树文;;形式概念分析及其应用进展[J];太原科技;2007年05期
2 杜昌平;周德云;;一种基于变精度粗糙集的规则提取方法研究[J];西北工业大学学报;2006年03期
3 张岩;;针对不完备系统的粗糙熵属性约简算法的改进[J];莆田学院学报;2006年05期
4 李彩丽;缪园;;混合关系中的函数依赖及其相关规则[J];计算机工程与应用;2008年35期
5 黄孝斌;佘元冠;;一种基于包含度的绩效评价决策方法[J];统计与决策;2007年08期
6 胡明涵;张俐;任飞亮;;模糊形式概念分析与模糊概念格[J];东北大学学报(自然科学版);2007年09期
7 陈堂敏;;面向用户的知识量最佳属性约简算法在数控机床故障预测中的应用[J];机械科学与技术;2006年02期
8 胡兆玮;于佳;;基于角色访问控制的ERBAC模型研究[J];吉林师范大学学报(自然科学版);2010年04期
9 袁满;曹妍;高俊涛;;“三角形”模型及信息建模关键问题研究[J];齐齐哈尔大学学报(自然科学版);2011年02期
10 于秀清;;F-外嵌入信息与■-遗传辨识-应用[J];计算机科学;2011年05期
11 吴槟;冯登国;;多域环境下基于属性的授权委托模型[J];软件学报;2011年07期
12 何斌;李天祥;;建立PCB数据库的一种方法及其应用[J];光学精密工程;1992年04期
13 喻玲;陈蜀宇;;服务网格中基于属性自动合并的访问控制模型[J];小型微型计算机系统;2010年08期
14 ;数据库[J];个人电脑;1997年07期
15 虞险云;彭伟成;陈良刚;陈金海;;关系表上基于相似关系的关联规则挖掘[J];计算机科学;1999年12期
16 谢维奇;于秀清;;P-集合与数据内搜索-应用[J];计算机科学;2011年01期
17 于秀清;;P-集合与F-外嵌入信息辨识-发现[J];计算机科学;2011年02期
18 朱扬勇;对象历史H模型[J];计算机应用研究;1988年04期
19 刘明吉;王秀峰;饶一梅;;一个混合特征属性选择算法[J];计算机科学;2000年11期
20 孔健;创新研究中文献信息分析的方法论[J];情报科学;2002年10期
中国重要会议论文全文数据库 前10条
1 黄威;靳亚辉;;面向评论挖掘的产品属性集合构建[A];第六届(2011)中国管理学年会——信息管理分会场论文集[C];2011年
2 王淑礼;杨峰;邹先霞;;基于属性的RST在数据挖掘中的应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 王广涛;宋擒豹;车蕊;;一种新的基于信息熵的属性选择算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 熊腾科;张德富;董槐林;姜青山;邹滢滢;;信息系统中基于粗集的属性关联挖掘[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 杨永滔;王意洁;;基于约束分析的Skyline属性相对重要性发现算法[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
6 李菊;王军;王兴;;基于改进的二进制辨识矩阵的属性约简算法[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 吴丹;鲍玉斌;刘运涛;于戈;孙焕良;王大玲;;一种基于高效分形维计算的快速属性相关性搜索算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
8 刘振雷;毛宇光;;多级安全数据库推理审计方法[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
9 周钢;;操作系统访问控制机制的安全性分析和测试[A];第14届全国计算机安全学术交流会论文集[C];1999年
10 谷俊杰;孙群丽;;基于组织进化的关联规则挖掘在锅炉优化运行中的运用[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
中国博士学位论文全文数据库 前10条
1 王永涛;基于属性密码体制的相关研究[D];上海交通大学;2011年
2 范成贤;动态信息与动态信息规律特征研究[D];山东大学;2013年
3 朱红;粒度聚类方法研究[D];中国矿业大学;2013年
4 贾海涛;基于感知引导的数据融合算法研究[D];电子科技大学;2012年
5 张国军;基于粗糙集的相对属性约简算法及决策方法研究[D];华中科技大学;2010年
6 裴海峰;Z. PAWLAK粗集推广与应用研究[D];山东大学;2007年
7 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
8 马君华;粗糙集属性约简和聚类算法及其在电力自动化中的应用研究[D];华中科技大学;2010年
9 袁庆霓;基于网络化制造环境的制造资源共享服务语义关键技术研究[D];西南交通大学;2010年
10 王荣斌;基于策略集自动组合的网格访问控制模型研究[D];重庆大学;2008年
中国硕士学位论文全文数据库 前10条
1 靳亚辉;基于属性集合的产品评论挖掘研究[D];华中科技大学;2011年
2 刘敏茜;面向对象概念格与面向属性概念格的属性约简理论[D];西北大学;2010年
3 张小花;面向属性概念格与面向对象概念格的粒约简理论[D];西北大学;2011年
4 赵小香;属性探索算法研究[D];广西师范大学;2010年
5 覃萍;属性探索算法改进及本体构建研究[D];广西师范大学;2010年
6 孙丽丽;基于属性组合的随机森林[D];河北大学;2011年
7 王锦晓;属性基加密中撤销机制的研究[D];杭州电子科技大学;2013年
8 胡馨云;基于属性的商品评论情感挖掘研究[D];华中科技大学;2013年
9 张瑞;基于双聚类的属性分组方法及其应用[D];大连理工大学;2011年
10 黄加顺;基于属性的前向安全数字签名研究[D];上海交通大学;2013年
中国重要报纸全文数据库 前4条
1 四川 王子剑;Delphi中实现ADO的高级功能[N];电脑报;2006年
2 普元软件 吉锋;SCA实现“中国化”SOA[N];通信产业报;2006年
3 中国人民大学信息学院 白芸;为你量身定制[N];计算机世界;2001年
4 Dream Zeus;网站制作轻松学(二)[N];计算机世界;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978