收藏本站
《吉林大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向领域网页的语义标注若干问题研究

荆涛  
【摘要】:为网页增加语义元数据信息,将Web页面转化为机器可理解的语义描述形式属于语义标注研究范畴。这一研究不仅对于语义Web远景早日实现至关重要,也对当今Web中各类自动化应用性能的提高具有重要作用。本文作者在深入分析前人工作的基础上,综合运用语义Web、本体构建、自然语言处理、机器学习和Web挖掘等多个领域的知识和方法,开展了“面向领域网页的语义标注”研究工作,主要研究内容包括: 1.对语义标注研究及相关技术进行了全面的分析和总结。 2.在综合现有本体构建方法的基础上,提出了一个以研究需求为驱动,支持研究组在分布式环境中开展工作的四阶段本体构建方法。 3.针对知网2000免费版(简称为HowNet)编程开发接口缺失的现状和项目开发的需求,利用逆向工程技术,给出了一个获取HowNet编程开发接口的技术解决方案,并将获得的接口应用到实验中。 4.提出了一个在领域本体指导下,综合运用统计学方法和自然语言处理(NLP)技术对中文自然语言Web文档进行语义标注的方法框架。框架分为数据准备阶段、识别阶段和组合阶段。在数据准备阶段利用特征抽取方法构建领域词汇表,并形成类型标注表;在识别阶段提出显式类型标注算法,识别文本中的实例和属性;在组合阶段提出基于依存树的关系抽取算法和基于依存森林的关系抽取算法,完成关系抽取。此外,还给出了一个基于影响度函数的主动学习方法以交互提问方式来提高标注性能。 5.提出了基于句子频繁特征模式挖掘的语义标注方法框架,包括数据预处理、模式挖掘和规则处理三个阶段。在数据预处理阶段提出特征句提取算法和特征序列生成算法;在模式挖掘阶段提出基于后缀数组的句子频繁特征模式挖掘算法;在规则处理阶段利用挖掘得到的特征模式来编写标注规则,并将规则应用到语义标注过程中。 本文研究依托国家自然科学基金重大项目“非规范知识的基本理论和核心技术”之开放课题“第二代浏览器原型研究”(60496321),目前研究成果已应用到原型系统CRAB中。
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP393.092

免费申请
【引证文献】
中国期刊全文数据库 前1条
1 邱均平;楼雯;;基于共现分析的语义信息检索研究[J];中国图书馆学报;2012年06期
中国博士学位论文全文数据库 前1条
1 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
2 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
3 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
4 荆涛;左万利;孙吉贵;车海燕;;中文网页语义标注:由句子到RDF表示[J];计算机研究与发展;2008年07期
5 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
6 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
7 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
8 董振东;董强;郝长伶;;知网的理论发现[J];中文信息学报;2007年04期
9 王睿,张洁,张由仪,于禛,姚天昉;基于混合模型的中文命名实体抽取系统[J];清华大学学报(自然科学版);2005年S1期
10 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
中国博士学位论文全文数据库 前1条
1 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
中国硕士学位论文全文数据库 前1条
1 荆涛;基于后缀数组的Web用户访问模式高效挖掘算法[D];吉林大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 李洁;;嵌入式软件任务级交叉调试器的设计与实现[J];阿坝师范高等专科学校学报;2011年02期
2 陈子铭;汪红;;基于学习型红外模块的智能家居系统的设计与实现[J];鞍山师范学院学报;2012年02期
3 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
4 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
5 车紫辉;王运辉;;VFP中DBF表的加密和解密方法[J];保定学院学报;2010年03期
6 王启才;;计算机房计费管理系统IC卡的加密处理[J];办公自动化;2009年24期
7 张中华;苏志同;;PE程序加壳中的反脱壳技术研究[J];北京工业职业技术学院学报;2008年03期
8 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
9 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
10 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
中国重要会议论文全文数据库 前10条
1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 崔岚;阮秋琦;;结点有拥塞的动态最短路径问题的算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
7 丁昆;牛少彰;;VC++下利用窗口子类化和DDX技术实现密码保护[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
8 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
9 宋晔;于秋;张元;潘海军;马文良;;基于Web平台的数据安全传输系统的研究[A];第三届全国嵌入式技术和信息处理联合学术会议论文集[C];2009年
10 谢利军;;某机载计算机专用检测设备的设计[A];第三届全国嵌入式技术和信息处理联合学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
3 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
4 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
5 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
6 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
7 张浩;视频运动人体行为识别与分类方法研究[D];西安电子科技大学;2011年
8 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
9 赵威;电网数据中心的数据安全问题研究[D];燕山大学;2011年
10 肖珊;基于概念语义的言说动词系统研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
3 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
4 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
5 蒋孟奇;声纳图像数据的高速显示技术研究[D];哈尔滨工程大学;2010年
6 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
7 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
8 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
9 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
10 杨晓钟;数字签名技术在检察业务中的应用[D];湘潭大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
2 于鹏;刘大有;欧阳丹彤;;基于遗传与粒子群算法的Markov逻辑网学习研究[J];电子学报;2006年S1期
3 张玉芳;黄涛;艾东梅;熊忠阳;唐蓉君;;Markov逻辑网在重复数据删除中的应用[J];重庆大学学报;2010年08期
4 尹奇韡;李善平;;语义Web语言DAML+OIL及其应用初探[J];计算机科学;2003年01期
5 李文;陈叶旺;彭鑫;赵文耘;;一种有效的基于本体的词语-概念映射方法[J];计算机科学;2010年10期
6 刘娇蛟,龚丽,李建华;基于本体实现对网页文本的自动主题分类[J];计算机工程;2003年11期
7 胡鹤,刘大有,王生生;Web本体语言OWL[J];计算机工程;2004年12期
8 黄德根;孙迎红;;中文地名的自动识别[J];计算机工程;2006年03期
9 杜小勇,李曼,王大治;语义Web与本体研究综述[J];计算机应用;2004年10期
10 张颖;王文杰;史忠植;;基于本体的文本分类方法[J];计算机仿真;2009年05期
中国博士学位论文全文数据库 前4条
1 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
2 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
3 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
4 刘海学;基于语义标注的元数据自动构建及其相关技术研究[D];华东师范大学;2010年
中国硕士学位论文全文数据库 前4条
1 熊荣东;结合WordNet的领域语义标注研究[D];重庆大学;2011年
2 陈鹏飞;基于个性化本体的语义搜索引擎技术的研究与设计[D];河北工业大学;2011年
3 王雨果;基于本体的个性化信息检索系统研究[D];电子科技大学;2008年
4 沙丽华;面向领域文档的语义标注方法研究[D];吉林大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 钟义信;面向智能研究的全信息理论——纪念Shannon信息论50周年[J];北京邮电大学学报;1998年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
4 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
5 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
6 李维刚;刘挺;李生;;基于网络挖掘的实体关系元组自动获取[J];电子学报;2007年11期
7 周顺先;林亚平;王耀南;易叶青;;基于二阶隐马尔可夫模型的文本信息抽取[J];电子学报;2007年11期
8 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
9 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
10 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
中国重要会议论文全文数据库 前3条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前2条
1 谢能付;基于语义Web技术的知识融合和同步方法研究[D];中国科学院研究生院(计算技术研究所);2006年
2 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 马强,刘敏娴,戴兆明;科学的网站建设方案[J];江苏煤炭;2001年02期
2 曹红兵;图书馆Web制作应注意的两个问题[J];图书馆建设;1999年06期
3 彭作民;基于数据库的网页密码保护的实现[J];计算机时代;2003年02期
4 李禹生;基于Linux的Web OA方案设计[J];南昌航空工业学院学报;2001年03期
5 冯亚丽,高升,马瑞民,冯正利;设定Web页访问权限的方法[J];微型电脑应用;2001年07期
6 徐小琳,肖敏军;WEB设计及网页制作中的几点考虑[J];现代电信科技;1997年08期
7 张冬梅;Web网页制作中的动态技术[J];现代图书情报技术;2001年06期
8 马峻,任建平,赵军哲;基于B/S商业采购信息管理系统的设计与实现[J];计算机应用;2002年08期
9 黄燕勤;浅谈网站设计的流程、原则和技巧[J];广西大学梧州分校学报;2003年03期
10 宁彬;;Web数据挖掘综述[J];华南金融电脑;2006年02期
中国重要会议论文全文数据库 前10条
1 郭奇;周立柱;郭杭;;模式驱动的面向领域智能Web数据采集引擎[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 梁建飞;吐尔根·依布拉音;;基于Web的双语平行网页自动获取技术的研究现状及分析[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
3 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年
6 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
7 范彦芳;高国弘;李香芳;梁培;崔巍;鱼杰钧;康鹤;;基于网页插件技术的气象信息Web共享方式研究[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
8 谢彦麒;谢丽聪;白清源;谢伙生;张莹;;挖掘Web访问模式的一种基于路径克隆的新算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 姚静;郑佳谦;徐隽;牛军钰;;Intranet中Web对象的属性挖掘[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 吕金台;李晓;丁峰;;基于Web服务的特大型企业数据交换的应用研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国重要报纸全文数据库 前10条
1 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
2 赵晓涛;Web安全 服务为王[N];网络世界;2008年
3 Websense中国区总经理 王沛烨;Web安全期待产业变革[N];网络世界;2008年
4 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
5 ;Web2.0工具使用须谨慎[N];网络世界;2009年
6 ;HTML5[N];人民邮电;2010年
7 ;揭开Web信誉的秘密[N];中国计算机报;2009年
8 张伟钦;Web安全的收购之殇[N];网络世界;2008年
9 本报记者 那罡;网页挂马瞄准政府部门网站[N];中国计算机报;2010年
10 ;有关社交Web的安全建议[N];网络世界;2009年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
3 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
4 李晓锋;基于本体和Web服务的教学资源集成管理研究[D];武汉大学;2010年
5 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
6 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
7 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
8 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
9 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
10 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 周红军;Web监控与网页防篡改系统的设计与实现[D];长春工业大学;2010年
2 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年
3 胡峰;Web数据挖掘及其在网络新闻文本数据中的应用[D];电子科技大学;2010年
4 段利君;基于Web挖掘的网页动态推荐系统研究[D];复旦大学;2010年
5 林子熠;基于模板的Web新闻搜索技术的研究与实现[D];上海交通大学;2010年
6 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
7 陈敬林;TrojanAntier:一种基于统计分析的Web木马防范系统[D];西安电子科技大学;2009年
8 庞永杰;基于Web的社会网络搜索中人名同一性判断方法研究[D];华中科技大学;2011年
9 魏一帆;分布式信息采集系统Web划分技术研究[D];哈尔滨工业大学;2010年
10 文星;基于位置感知的Web文本搜索技术研究[D];大连海事大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026