收藏本站
《扬州大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于领域本体的Web信息抽取技术研究

毕蕾  
【摘要】: 随着World Wide Web(简称WWW,Web)的迅速发展,网络上的信息与日俱增,互连网已成为人们获取信息的重要来源。而网络技术的迅猛发展为信息集成技术带来了新的问题和挑战,面对Internet上异质、异构数据的大量涌入,信息集成技术的研究呈现出前所未有的生命力。Web信息抽取技术是实现Web信息的集成一个有效途径。其主要目标是支持对Web上的多个数据源的查询,满足用户的查询需求。 信息抽取虽然需要对文本进行一定程度的理解,但与真正的文本理解还是不同的。在信息抽取中,用户一般只关心有限的感兴趣的事实信息,而不关心文本意义的细微差别等深层理解问题。因此,信息抽取只能算是一种浅层的文本理解技术。 而Web信息抽取在某些方面和Web信息检索类似,主要目的是方便用户获得所需信息为目的的;但两者又存在着很大的不同,如信息检索直接将检索到的Web相关网络资源直接提供给用户,Web信息抽取是将Web中各种不同格式表达的信息通过抽取技术转化为统一的信息表达方式。它为数据挖掘、新一代搜索引擎、面向专业领域的垂直搜索等提供了巨大的数据支持。信息抽取还可以看作是信息检索的进一步深化,研究指定信息的查找、理解和抽取,并将指定信息以适当的方式输出。信息抽取本身也是多种基本自然语言处理技术的综合应用,因此应用领域十分广泛。总之信息抽取的最终目的还是抽取出用户需要的信息供用户检索,查询和使用。 本文主要做了以下几方面工作。 1.基于领域本体的Web商品表格信息抽取。首先是提出以领域本体知识为指导,抽取表格信息表达为主的商品信息。由于市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。信息在网络上传播具有高时效,低成本等特性,因而越来越多的企业和个人都选择在网上发布商品信息,汽车,房产等信息都是鲜活的例子。这些信息本身多数都是以有一定的结构的信息如表格或类表格呈现,但是不同网站的表现形式却大相径庭。这里提出了以领域本体知识为指导,抽取表格信息表达为主的商品信息,自动集成不同网站的同类服务或产品的信息,用以实现专业检索的功能。以房产信息为例,首先利用本体及领域本体的相关知识,建立了一个房产信息领域的领域本体,用以指导信息抽取,并做了相关的实验。 2.基于领域本体的Web商品文本信息抽取。由于Web上的部分商务信息不是以表格或类表格形式呈现的,而是以自由文本形式出现的,而这些信息是以上的系统的盲区。因此进而结合自由文本信息提取方法,对自由文本的提取做了一定的深入研究,同样应用了领域本体的知识在上一步的基础上对Web上自由文本形式存在的房产信息进行提取。 3.有关领域本体的属性约简及文本相似度的计算的讨论。本文还讨论了有关对领域本体的属性约简方面的理论,以实现对Web信息抽取的优化。
【学位授予单位】:扬州大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 金燕;;基于本体的Web信息抽取研究综述[J];图书馆学研究;2012年16期
中国硕士学位论文全文数据库 前1条
1 李景;基于DOM树信息抽取的移动网站开发研究[D];中国海洋大学;2011年
【参考文献】
中国期刊全文数据库 前5条
1 王洪伟,吴家春,蒋馥;基于描述逻辑的本体模型研究[J];系统工程;2003年03期
2 薛思清,蔡之华;一种基于遗传算法的属性约简算法[J];计算机工程与应用;2003年15期
3 张文修,米据生,吴伟志;不协调目标信息系统的知识约简[J];计算机学报;2003年01期
4 何明,冯博琴,马兆丰,傅向华;一种改进的Rough集属性约简启发式遗传算法[J];西安石油大学学报(自然科学版);2004年03期
5 王放,顾宁,吴国文;基于本体的WEB表格信息抽取[J];小型微型计算机系统;2003年12期
【共引文献】
中国期刊全文数据库 前10条
1 徐文婷;李承鹏;;基于自适应遗传算法的离散化方法[J];合肥师范学院学报;2011年03期
2 蔡莉;胡学钢;;一种基于粗集的决策表求核算法[J];安徽大学学报(自然科学版);2007年06期
3 周玉华;李景杰;;不完备决策表的一种属性约简方法[J];安徽大学学报(自然科学版);2009年04期
4 杨萍,万上海,陈耿;一种基于可变支持度的缺省规则挖掘算法[J];安徽工程科技学院学报(自然科学版);2004年02期
5 孙全玲;基于粗集和神经网络的建模方法研究[J];安徽建筑工业学院学报(自然科学版);2005年02期
6 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
7 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
8 邓胜;戴小鹏;陈垦;黄璜;;粗糙集理论在农业生物灾害预测中的应用[J];安徽农业科学;2010年06期
9 刁占峰;张丹;张同军;;基于粗集-模糊综合评价法的水质指标约简研究[J];安徽农业科学;2010年26期
10 夏春艳;宋志超;张伟;;数据挖掘技术在农作物灾害预测中的应用[J];安徽农业科学;2011年08期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 吴强;王煦法;;“数字水利”及其关键技术[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
4 ;Fuzziness in Covering Generalized Rough Sets[A];第二十六届中国控制会议论文集[C];2007年
5 李雄;党生;;基于Rough集理论的战场侦察情报处理[A];第二十六届中国控制会议论文集[C];2007年
6 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
7 龚锦红;杨辉;衷路生;;稀土萃取分离过程的Rough集案例推理方法[A];第二十九届中国控制会议论文集[C];2010年
8 ;Influence Diagram Based on Rough Set Theory[A];第二十九届中国控制会议论文集[C];2010年
9 ;The Prediction of Soil Moisture Based on Rough Set-Neural Network Model[A];第二十九届中国控制会议论文集[C];2010年
10 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论和Apriori算法建立中医症候诊断标准[A];中国自动化学会控制理论专业委员会D卷[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 王作为;具有认知能力的智能机器人行为学习方法研究[D];哈尔滨工程大学;2010年
3 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
4 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
5 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
6 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
7 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
8 郭戈;数字视频语义信息提取与分析[D];解放军信息工程大学;2010年
9 温世亿;膨胀土渠坡若干关键技术问题研究[D];武汉大学;2010年
10 黄正行;临床过程分析与优化技术研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 李瑞波;图像阴影的检测与去除算法研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 赵永华;多学科本体构建与集成技术研究[D];山东科技大学;2010年
5 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
6 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
7 李昕哲;关系邻域系统的属性约简[D];郑州大学;2010年
8 刘琪;正态云模型模糊推理系统及其应用研究[D];郑州大学;2010年
9 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
10 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前9条
1 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
2 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
3 张成洪;古晓洪;白延红;;Web数据抽取技术研究进展[J];计算机科学;2004年02期
4 杜小勇;李曼;王珊;;本体学习研究综述[J];软件学报;2006年09期
5 吴鹏飞;孟祥增;刘俊晓;马凤娟;;基于结构与内容的网页主题信息提取研究[J];山东大学学报(理学版);2006年03期
6 谢艳玲;何丕廉;于鷃;孙越恒;;一种高效的网页聚类方法[J];计算机工程与设计;2007年17期
7 毕蕾;沈洁;徐法艳;魏榴花;朱燕;孙荣霜;;领域本体指导的Web商品信息抽取[J];计算机工程与设计;2008年24期
8 黄婵;罗艳梅;;基于领域本体的Web页面信息抽取[J];实验室研究与探索;2011年01期
9 高岭;赵朋朋;崔志明;;Deep Web查询接口的自动判定[J];计算机技术与发展;2007年05期
中国硕士学位论文全文数据库 前4条
1 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
2 徐东兴;基于Gate框架的信息抽取系统的研究与实现[D];华东师范大学;2007年
3 陈静;基于本体的信息抽取研究[D];苏州大学;2007年
4 赖春波;Web信息自动抽取技术研究[D];浙江大学;2008年
【二级引证文献】
中国硕士学位论文全文数据库 前5条
1 史君;支持HTML5技术的嵌入式移动浏览器研究与开发[D];大连海事大学;2012年
2 刘飞;HTML流移动自适应转换关键技术的研究和实现[D];中国海洋大学;2012年
3 刘凤成;面向移动终端的Web页面分块与转换方法的研究与应用[D];中南大学;2012年
4 高梦娇;基于Nutch的移动WEB搜索系统的研究与实现[D];北京邮电大学;2013年
5 张朝阳;基于内容和情感的文本分类方法研究[D];华中科技大学;2013年
【二级参考文献】
中国期刊全文数据库 前8条
1 苗夺谦,胡桂荣;知识约简的一种启发式算法[J];计算机研究与发展;1999年06期
2 王珏,王任,苗夺谦,郭萌,阮永韶,袁小红,赵凯;基于Rough Set理论的“数据浓缩”[J];计算机学报;1998年05期
3 刘少辉,盛秋戬,吴斌,史忠植,胡斐;Rough集高效算法的研究[J];计算机学报;2003年05期
4 邓凯,吴家春,王洪伟;本体论在知识图书馆中的应用初探[J];情报科学;2003年01期
5 黄豫清,戚广志,张福炎;从WEB文档中构造半结构化信息的抽取器[J];软件学报;2000年01期
6 邸凯昌,李德仁,李德毅;Rough集理论及其在GIS属性分析和知识发现中的应用[J];武汉测绘科技大学学报;1999年01期
7 代建华,李元香;粗集中属性约简的一种启发式遗传算法[J];西安交通大学学报;2002年12期
8 张卿,谢志鹏,刘宗田;基于变长编码遗传算法的最小缩减计算[J];小型微型计算机系统;2001年09期
【相似文献】
中国期刊全文数据库 前10条
1 秦晓梅;;探讨搜索引擎在网络信息挖掘中的应用[J];科技资讯;2009年29期
2 聂璐;;搜索引擎在网络信息挖掘中的应用[J];电脑知识与技术;2009年27期
3 沈岳;;搜索引擎技术综述[J];北京城市学院学报;2007年04期
4 韩立新;对搜索引擎中评分方法的研究[J];电子学报;2005年11期
5 毕蕾;沈洁;徐法艳;魏榴花;朱燕;孙荣霜;;领域本体指导的Web商品信息抽取[J];计算机工程与设计;2008年24期
6 刘俊熙;吴英;;信息检索和网络数据挖掘技术的比较分析[J];图书馆学刊;2005年06期
7 于海涛;;Web挖掘技术在搜索引擎中的应用[J];齐齐哈尔师范高等专科学校学报;2009年06期
8 马勤;;从用户角度看网络免费电子资源的深度挖掘[J];科技情报开发与经济;2011年10期
9 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期
10 谢安裕;;网络信息搜索引擎的发展研究[J];中国新技术新产品;2010年03期
中国重要会议论文全文数据库 前10条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
3 张磊;王斌;靖红芳;吴丽辉;;中文网页搜索日志中的特殊命名实体挖掘[A];第五届全国信息检索学术会议论文集[C];2009年
4 陈杰;;应用智能搜索 实现数据挖掘[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(上篇)[C];2009年
5 梁婷婷;张志强;谢晓芹;;搜索引擎评估算法综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 王灿辉;张敏;马少平;;Web作弊与反作弊技术综述[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 李智超;余慧佳;马少平;;使用支持向量机进行作弊页面识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 罗伟;李陶深;;一种基于本体的个性化搜索引擎模型[A];广西计算机学会2006年年会论文集[C];2006年
9 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
10 孙斌;;使用内存汇集的新闻搜索索引更新[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 魏琳;儒豹手机搜索入围2008中国新媒体年度评选名单[N];江苏科技报;2008年
2 钱铮;日本下一代搜索引擎开发路途崎岖[N];中华新闻报;2006年
3 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
4 赵敏;“鱼群理论”破解搜索营销谜局[N];中国企业报;2007年
5 本报记者 马文方;Yebol:从思维科学导出搜索引擎[N];中国计算机报;2010年
6 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
7 林海;“鱼群理论”破解搜索营销迷局[N];中国高新技术产业导报;2007年
8 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
9 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
10 张立明;数据挖掘之道[N];网络世界;2003年
中国博士学位论文全文数据库 前10条
1 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
2 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
3 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
4 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
5 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
6 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
9 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
10 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
中国硕士学位论文全文数据库 前10条
1 毕蕾;基于领域本体的Web信息抽取技术研究[D];扬州大学;2008年
2 王晓华;基于内容的搜索引擎技术研究及其应用[D];郑州大学;2005年
3 蒋伟华;搜索引擎中的信息抽取技术研究[D];湖南大学;2001年
4 李晨;IM智能搜索机器人系统[D];华东师范大学;2008年
5 张永军;基于企业信息门户框架的知识管理系统研究与实现[D];机械科学研究院;2005年
6 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
7 杨宇;搜索词的意图分析与应用[D];北京邮电大学;2010年
8 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
9 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
10 贾爱军;面向创新设计的多层次Web信息检索研究[D];四川大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026