收藏本站
《吉林大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向领域网页的语义标注若干问题研究

荆涛  
【摘要】:为网页增加语义元数据信息,将Web页面转化为机器可理解的语义描述形式属于语义标注研究范畴。这一研究不仅对于语义Web远景早日实现至关重要,也对当今Web中各类自动化应用性能的提高具有重要作用。本文作者在深入分析前人工作的基础上,综合运用语义Web、本体构建、自然语言处理、机器学习和Web挖掘等多个领域的知识和方法,开展了“面向领域网页的语义标注”研究工作,主要研究内容包括: 1.对语义标注研究及相关技术进行了全面的分析和总结。 2.在综合现有本体构建方法的基础上,提出了一个以研究需求为驱动,支持研究组在分布式环境中开展工作的四阶段本体构建方法。 3.针对知网2000免费版(简称为HowNet)编程开发接口缺失的现状和项目开发的需求,利用逆向工程技术,给出了一个获取HowNet编程开发接口的技术解决方案,并将获得的接口应用到实验中。 4.提出了一个在领域本体指导下,综合运用统计学方法和自然语言处理(NLP)技术对中文自然语言Web文档进行语义标注的方法框架。框架分为数据准备阶段、识别阶段和组合阶段。在数据准备阶段利用特征抽取方法构建领域词汇表,并形成类型标注表;在识别阶段提出显式类型标注算法,识别文本中的实例和属性;在组合阶段提出基于依存树的关系抽取算法和基于依存森林的关系抽取算法,完成关系抽取。此外,还给出了一个基于影响度函数的主动学习方法以交互提问方式来提高标注性能。 5.提出了基于句子频繁特征模式挖掘的语义标注方法框架,包括数据预处理、模式挖掘和规则处理三个阶段。在数据预处理阶段提出特征句提取算法和特征序列生成算法;在模式挖掘阶段提出基于后缀数组的句子频繁特征模式挖掘算法;在规则处理阶段利用挖掘得到的特征模式来编写标注规则,并将规则应用到语义标注过程中。 本文研究依托国家自然科学基金重大项目“非规范知识的基本理论和核心技术”之开放课题“第二代浏览器原型研究”(60496321),目前研究成果已应用到原型系统CRAB中。
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP393.092

【引证文献】
中国期刊全文数据库 前2条
1 车海燕;冯铁;张家晨;陈伟;李大利;;面向中文自然语言文档的自动知识抽取方法[J];计算机研究与发展;2013年04期
2 邱均平;楼雯;;基于共现分析的语义信息检索研究[J];中国图书馆学报;2012年06期
中国博士学位论文全文数据库 前1条
1 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
2 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
3 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
4 荆涛;左万利;孙吉贵;车海燕;;中文网页语义标注:由句子到RDF表示[J];计算机研究与发展;2008年07期
5 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
6 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
7 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
8 董振东;董强;郝长伶;;知网的理论发现[J];中文信息学报;2007年04期
9 王睿,张洁,张由仪,于禛,姚天昉;基于混合模型的中文命名实体抽取系统[J];清华大学学报(自然科学版);2005年S1期
10 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
中国博士学位论文全文数据库 前1条
1 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
中国硕士学位论文全文数据库 前1条
1 荆涛;基于后缀数组的Web用户访问模式高效挖掘算法[D];吉林大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 李洁;;嵌入式软件任务级交叉调试器的设计与实现[J];阿坝师范高等专科学校学报;2011年02期
2 陈子铭;汪红;;基于学习型红外模块的智能家居系统的设计与实现[J];鞍山师范学院学报;2012年02期
3 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
4 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
5 车紫辉;王运辉;;VFP中DBF表的加密和解密方法[J];保定学院学报;2010年03期
6 王启才;;计算机房计费管理系统IC卡的加密处理[J];办公自动化;2009年24期
7 张中华;苏志同;;PE程序加壳中的反脱壳技术研究[J];北京工业职业技术学院学报;2008年03期
8 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
9 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
10 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
中国重要会议论文全文数据库 前10条
1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 崔岚;阮秋琦;;结点有拥塞的动态最短路径问题的算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
7 丁昆;牛少彰;;VC++下利用窗口子类化和DDX技术实现密码保护[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
8 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
9 宋晔;于秋;张元;潘海军;马文良;;基于Web平台的数据安全传输系统的研究[A];第三届全国嵌入式技术和信息处理联合学术会议论文集[C];2009年
10 谢利军;;某机载计算机专用检测设备的设计[A];第三届全国嵌入式技术和信息处理联合学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
3 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
4 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
5 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
6 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
7 张浩;视频运动人体行为识别与分类方法研究[D];西安电子科技大学;2011年
8 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
9 赵威;电网数据中心的数据安全问题研究[D];燕山大学;2011年
10 肖珊;基于概念语义的言说动词系统研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
3 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
4 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
5 蒋孟奇;声纳图像数据的高速显示技术研究[D];哈尔滨工程大学;2010年
6 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
7 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
8 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
9 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
10 杨晓钟;数字签名技术在检察业务中的应用[D];湘潭大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
2 于鹏;刘大有;欧阳丹彤;;基于遗传与粒子群算法的Markov逻辑网学习研究[J];电子学报;2006年S1期
3 张玉芳;黄涛;艾东梅;熊忠阳;唐蓉君;;Markov逻辑网在重复数据删除中的应用[J];重庆大学学报;2010年08期
4 荆涛;左万利;孙吉贵;车海燕;;中文网页语义标注:由句子到RDF表示[J];计算机研究与发展;2008年07期
5 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期
6 尹奇韡;李善平;;语义Web语言DAML+OIL及其应用初探[J];计算机科学;2003年01期
7 李文;陈叶旺;彭鑫;赵文耘;;一种有效的基于本体的词语-概念映射方法[J];计算机科学;2010年10期
8 刘娇蛟,龚丽,李建华;基于本体实现对网页文本的自动主题分类[J];计算机工程;2003年11期
9 胡鹤,刘大有,王生生;Web本体语言OWL[J];计算机工程;2004年12期
10 黄德根;孙迎红;;中文地名的自动识别[J];计算机工程;2006年03期
中国博士学位论文全文数据库 前4条
1 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
2 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
3 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
4 刘海学;基于语义标注的元数据自动构建及其相关技术研究[D];华东师范大学;2010年
中国硕士学位论文全文数据库 前4条
1 熊荣东;结合WordNet的领域语义标注研究[D];重庆大学;2011年
2 陈鹏飞;基于个性化本体的语义搜索引擎技术的研究与设计[D];河北工业大学;2011年
3 王雨果;基于本体的个性化信息检索系统研究[D];电子科技大学;2008年
4 沙丽华;面向领域文档的语义标注方法研究[D];吉林大学;2009年
【二级引证文献】
中国期刊全文数据库 前6条
1 岳盼盼;王小正;王伊玲;;教育资源语义搜索引擎的研究与设计[J];福建电脑;2014年03期
2 涂鼎;陈岭;陈根才;吴勇;王敬昌;;基于多路层次聚类的商品评论数据概念分类构建[J];计算机研究与发展;2013年S2期
3 张静;王健;周国民;;基于农产品价格信息的多源网络信息语义异构类型探析[J];农业展望;2014年05期
4 吕红;邱均平;李小涛;余厚强;;国内馆藏资源可视化研究进展分析[J];情报资料工作;2014年01期
5 邱均平;刘国徽;;国内耦合分析方法研究现状与展望[J];图书情报工作;2014年07期
6 楼雯;;馆藏资源语义化关键技术及实证研究[J];中国图书馆学报;2013年06期
中国博士学位论文全文数据库 前1条
1 杜晖;基于耦合关系的学术信息资源深度聚合研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前1条
1 刘畅;基于用户兴趣及本体术语关系的查询扩展[D];河北大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 钟义信;面向智能研究的全信息理论——纪念Shannon信息论50周年[J];北京邮电大学学报;1998年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
4 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
5 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
6 李维刚;刘挺;李生;;基于网络挖掘的实体关系元组自动获取[J];电子学报;2007年11期
7 周顺先;林亚平;王耀南;易叶青;;基于二阶隐马尔可夫模型的文本信息抽取[J];电子学报;2007年11期
8 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
9 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
10 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
中国重要会议论文全文数据库 前3条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前2条
1 谢能付;基于语义Web技术的知识融合和同步方法研究[D];中国科学院研究生院(计算技术研究所);2006年
2 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 曾诚;李兵;何克清;;KMP算法在Web服务语义标注中的应用[J];微电子学与计算机;2010年08期
2 张瑜;李景;孟宪学;苏晓路;;网络标注的主要方法概述[J];图书情报工作;2008年01期
3 张瑜;;网络标注的主要方法[J];湖北第二师范学院学报;2010年02期
4 鞠彦辉;刘闯;;国外典型语义标注平台的比较研究[J];现代情报;2009年01期
5 崔红;段宇锋;郦芳;;基于机器学习的生物多样性英文文档语义标注研究[J];图书情报知识;2011年02期
6 苏菱;吴克伟;黄帅;;一种基于DTSVM的遥感图像分割方法[J];合肥工业大学学报(自然科学版);2011年03期
7 李向阳;张亚非;;一种基于遗传算法的语义标注[J];电子科技大学学报;2007年01期
8 张大陆;吕韬;;基于概念频率的Web服务语义标注[J];同济大学学报(自然科学版);2008年01期
9 石磊;丁剑霆;;基于区域模糊本体的公路景观图像区域语义标注方法[J];黑龙江工程学院学报(自然科学版);2009年02期
10 毛平;;基于领域本体的文本信息语义检索研究[J];科技资讯;2009年36期
中国重要会议论文全文数据库 前10条
1 陈波;姬东鸿;孙程;吕晨;;基于特征结构的汉语主谓谓语句语义标注研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 袁柳;李战怀;陈世亮;;OntoWord:一种新的Web页面语义标注方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 曾诚;李兵;何克清;;KMP算法在Web服务语义标注中的应用[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
4 韩先培;齐振宇;田野;王渝丽;赵军;;基于领域语义信息的百科问答系统[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 宋雨;郑怿;吴燕;;RDFa语义标注技术综述[A];2009全国计算机网络与通信学术会议论文集[C];2009年
6 韩先培;赵军;;基于Wikipedia的语义元数据生成[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 房江太;黄映辉;李冠宇;;基于WSDL-S的Web服务语义标注方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 孙晓玲;林鸿飞;;统一语义视图下的垂直领域跨语言检索模型[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 王晓慧;张申;贾珈;蔡莲红;;语义脸像的分析与生成[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
10 安娜;;基于语料库的英汉熟语标注研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前2条
1 本报驻英国记者 刘海英;未来的网络知你心[N];科技日报;2011年
2 课题承担单位:湖南省博物馆 中国科学院自动化研究所 中国科学院计算机技术研究所 西安交通大学;古代建筑保护技术信息系统研发[N];中国文物报;2010年
中国博士学位论文全文数据库 前10条
1 梁汝鹏;基于语义标注的地理信息服务关键技术研究[D];解放军信息工程大学;2013年
2 刘海学;基于语义标注的元数据自动构建及其相关技术研究[D];华东师范大学;2010年
3 虎晓红;用于图像检索的语义标注技术的研究[D];中国矿业大学(北京);2010年
4 熊华;视频内容结构化技术的研究与实现[D];中国人民解放军国防科学技术大学;2001年
5 李景;领域本体的构建方法与应用研究[D];中国农业科学院;2009年
6 温超;基于图像的文物检索与本体标注方法研究[D];西北大学;2012年
7 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
8 陈叶旺;国家农业本休协同建构与语义检索若干技术研究[D];复旦大学;2009年
9 李东民;物流服务匹配与选择研究[D];山东科技大学;2009年
10 吴承文;面向数据库的语义查询技术研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 黄文;三维模型语义标注系统的设计与实现[D];西北大学;2011年
2 常建峰;基于模糊支持向量机的图像语义标注[D];太原理工大学;2011年
3 徐利谋;基于语义的Web服务发现研究[D];湖南工业大学;2008年
4 罗旋;基于复句领域本体的语义标注方法研究[D];华中师范大学;2006年
5 朱海霞;基于AIE的半自动Web页标注关键技术研究[D];河海大学;2005年
6 王浩然;海洋文献元数据的语义标注技术研究[D];中国海洋大学;2008年
7 高永岗;医学图像的语义标注技术研究与应用[D];西北大学;2009年
8 吴秀刚;基于模糊图论的视频语义自动标注[D];北京交通大学;2009年
9 刘卫红;本体在E-Learning系统中的应用研究[D];西北大学;2006年
10 张亮亮;基于领域本体的语义检索研究[D];吉林大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026