收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向领域网页的语义标注若干问题研究

荆涛  
【摘要】:为网页增加语义元数据信息,将Web页面转化为机器可理解的语义描述形式属于语义标注研究范畴。这一研究不仅对于语义Web远景早日实现至关重要,也对当今Web中各类自动化应用性能的提高具有重要作用。本文作者在深入分析前人工作的基础上,综合运用语义Web、本体构建、自然语言处理、机器学习和Web挖掘等多个领域的知识和方法,开展了“面向领域网页的语义标注”研究工作,主要研究内容包括: 1.对语义标注研究及相关技术进行了全面的分析和总结。 2.在综合现有本体构建方法的基础上,提出了一个以研究需求为驱动,支持研究组在分布式环境中开展工作的四阶段本体构建方法。 3.针对知网2000免费版(简称为HowNet)编程开发接口缺失的现状和项目开发的需求,利用逆向工程技术,给出了一个获取HowNet编程开发接口的技术解决方案,并将获得的接口应用到实验中。 4.提出了一个在领域本体指导下,综合运用统计学方法和自然语言处理(NLP)技术对中文自然语言Web文档进行语义标注的方法框架。框架分为数据准备阶段、识别阶段和组合阶段。在数据准备阶段利用特征抽取方法构建领域词汇表,并形成类型标注表;在识别阶段提出显式类型标注算法,识别文本中的实例和属性;在组合阶段提出基于依存树的关系抽取算法和基于依存森林的关系抽取算法,完成关系抽取。此外,还给出了一个基于影响度函数的主动学习方法以交互提问方式来提高标注性能。 5.提出了基于句子频繁特征模式挖掘的语义标注方法框架,包括数据预处理、模式挖掘和规则处理三个阶段。在数据预处理阶段提出特征句提取算法和特征序列生成算法;在模式挖掘阶段提出基于后缀数组的句子频繁特征模式挖掘算法;在规则处理阶段利用挖掘得到的特征模式来编写标注规则,并将规则应用到语义标注过程中。 本文研究依托国家自然科学基金重大项目“非规范知识的基本理论和核心技术”之开放课题“第二代浏览器原型研究”(60496321),目前研究成果已应用到原型系统CRAB中。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 马强,刘敏娴,戴兆明;科学的网站建设方案[J];江苏煤炭;2001年02期
2 曹红兵;图书馆Web制作应注意的两个问题[J];图书馆建设;1999年06期
3 彭作民;基于数据库的网页密码保护的实现[J];计算机时代;2003年02期
4 李禹生;基于Linux的Web OA方案设计[J];南昌航空工业学院学报;2001年03期
5 冯亚丽,高升,马瑞民,冯正利;设定Web页访问权限的方法[J];微型电脑应用;2001年07期
6 徐小琳,肖敏军;WEB设计及网页制作中的几点考虑[J];现代电信科技;1997年08期
7 张冬梅;Web网页制作中的动态技术[J];现代图书情报技术;2001年06期
8 马峻,任建平,赵军哲;基于B/S商业采购信息管理系统的设计与实现[J];计算机应用;2002年08期
9 黄燕勤;浅谈网站设计的流程、原则和技巧[J];广西大学梧州分校学报;2003年03期
10 宁彬;;Web数据挖掘综述[J];华南金融电脑;2006年02期
11 林锦贤,钟春芳;基于Agent的Web网页自适应检索模型[J];福州大学学报(自然科学版);2000年03期
12 邢筠;基于ASP实现WEB网页动态刷新技术[J];微机发展;2001年04期
13 陈军,陈文亮,翟建军;基于Web的数控加工仿真研究[J];机械制造与自动化;2003年06期
14 冉朝阳,赵勤燕;基于Web内容的Internet监控──从TCP连接到Web网页[J];微型电脑应用;1998年06期
15 胡德,胡昌赤;基于Web技术的网上售碟系统的实现[J];微电子学与计算机;2000年05期
16 王宏;MATLAB的Web应用和开发[J];计算机应用;2001年03期
17 罗平,惠韶文;ActiveX技术及其在CAI开发中的应用[J];计算机系统应用;2001年02期
18 周俊荣;Auto CAD图形文件的网上传输[J];电脑开发与应用;2001年12期
19 聂俊岚,王永滨,刘恩海,王连泽;基于Web和CORBA技术的异构数据源集成[J];河北科技大学学报;2001年04期
20 何鹏,徐立臻,庄晓青;模糊聚类在Web信息检索中的应用研究[J];计算机工程;2002年10期
中国重要会议论文全文数据库 前10条
1 郭奇;周立柱;郭杭;;模式驱动的面向领域智能Web数据采集引擎[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 梁建飞;吐尔根·依布拉音;;基于Web的双语平行网页自动获取技术的研究现状及分析[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
3 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年
6 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
7 范彦芳;高国弘;李香芳;梁培;崔巍;鱼杰钧;康鹤;;基于网页插件技术的气象信息Web共享方式研究[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
8 谢彦麒;谢丽聪;白清源;谢伙生;张莹;;挖掘Web访问模式的一种基于路径克隆的新算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 姚静;郑佳谦;徐隽;牛军钰;;Intranet中Web对象的属性挖掘[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 吕金台;李晓;丁峰;;基于Web服务的特大型企业数据交换的应用研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
3 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
4 李晓锋;基于本体和Web服务的教学资源集成管理研究[D];武汉大学;2010年
5 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
6 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
7 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
8 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
9 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
10 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 周红军;Web监控与网页防篡改系统的设计与实现[D];长春工业大学;2010年
2 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年
3 胡峰;Web数据挖掘及其在网络新闻文本数据中的应用[D];电子科技大学;2010年
4 段利君;基于Web挖掘的网页动态推荐系统研究[D];复旦大学;2010年
5 林子熠;基于模板的Web新闻搜索技术的研究与实现[D];上海交通大学;2010年
6 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
7 陈敬林;TrojanAntier:一种基于统计分析的Web木马防范系统[D];西安电子科技大学;2009年
8 庞永杰;基于Web的社会网络搜索中人名同一性判断方法研究[D];华中科技大学;2011年
9 魏一帆;分布式信息采集系统Web划分技术研究[D];哈尔滨工业大学;2010年
10 文星;基于位置感知的Web文本搜索技术研究[D];大连海事大学;2011年
中国重要报纸全文数据库 前10条
1 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
2 赵晓涛;Web安全 服务为王[N];网络世界;2008年
3 Websense中国区总经理 王沛烨;Web安全期待产业变革[N];网络世界;2008年
4 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
5 ;Web2.0工具使用须谨慎[N];网络世界;2009年
6 ;HTML5[N];人民邮电;2010年
7 ;揭开Web信誉的秘密[N];中国计算机报;2009年
8 张伟钦;Web安全的收购之殇[N];网络世界;2008年
9 本报记者 那罡;网页挂马瞄准政府部门网站[N];中国计算机报;2010年
10 ;有关社交Web的安全建议[N];网络世界;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978