收藏本站
《重庆大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Bootstrapping的本体标注方法研究

高琦  
【摘要】: 随着互联网的发展,web资源呈现出高速增长,但目前互联网中的信息处理自动化低,信息之间关联性差,即使借助功能强大的搜索引擎,由于冗余信息过多,也无法快速准确地从web资源中获得有效信息。为了解决这样的问题,Web创始人Tim Berners-Lee于1998年提出了语义Web的概念,它在现有Web基础之上新增了扩展层,并在这层上对Web信息进行形式化的描述。因此通过本体词汇标注Web资源,将Web上资源的状态从机器可读提高到机器可理解的程度,并以此为基础发展语义Web是高效获取Web信息的解决之道。 现有的大部分标注方法自动化程度低,适应性较差,效率低下。本文对本体标注方法进行了系统的研究,探索出了一种基于Bootstrapping的本体标注新方法。先对给定的本体进行解析,生成规则文件,然后通过文本分类筛选出领域文档。之后,采用Bootstrapping的方法进行信息标注抽取和Ontology推理,几次循环之后,只利用少量的训练文本就能达到较好的标注效果。本文主要工作如下: ①提出了一种新的基于Bootstrapping和贝叶斯算法的文本分类自动学习算法。由于待标注文本往往复杂多样,若直接进行信息标注、抽取,工作量巨大且标注错误率高。因此,在标注之前,需要先进行文本分类,抽取出与领域Ontology相关的文档。为了使分类器能够在小样本情况下对文本进行正确的分类和标注,本文提出了一种新的基于Bootstrapping和贝叶斯算法的文本分类自动学习算法,该算法只需少量的训练样本作为种子集,来训练分类器,然后从分类的结果中挑选出部分置信度最高的文本加入到种子集中,作为新一轮的训练样本,重复训练直到结束。这样,只通过少量训练样本就能达到大量训练样本训练的结果。 ②提出了一种利用Bootstrapping和规则对文本集进行标注的方法。首先,根据规则文件对文本集进行初始标注,得到标注好的文本集。然后,利用实例的上下文关系,借鉴WHISK算法对抽取规则进行归纳,生成新的规则文件,标注新词汇。接着,抽取标注过的信息,填充到本体文件中。最后,借助于Ontology推理机,推理本体文件,去除错误数据,并修剪错误的规则,经过多次迭代,从而使模型能达到自动抽取新实例,丰富、完善本体的目的。待迭代完成后,得到标注好的文本集合和丰富的本体库。 ③提出了一种基于Bootstrapping的本体标注方法。该方法将领域文本的分类和标注结合成为一个整体模型,模型每次迭代后扩充的本体库使得分类器得以继续进行,而由分类产生的未标注领域文档又能进一步扩充本体库。循环反复,有效的达到了利用小样本训练集进行本体标注的目的。经过大量的实验表明,该方法具有较好的分类效果,对本体的标注具有较高的准确率和召回率。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前6条
1 石倩;陈荣;鲁明羽;;基于规则归纳的信息抽取系统实现[J];计算机工程与应用;2008年21期
2 伍星;何中市;黄永文;;基于弱监督学习的产品特征抽取[J];计算机工程;2009年13期
3 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
4 许斌;李涓子;王克宏;;Web服务语义标注方法[J];清华大学学报(自然科学版);2006年10期
5 李祯;杨放春;苏森;;基于模糊多属性决策理论的语义Web服务组合算法[J];软件学报;2009年03期
6 呼声波;刘希玉;;网页分类中特征提取方法的比较与改进[J];山东师范大学学报(自然科学版);2008年03期
中国硕士学位论文全文数据库 前3条
1 李飒;基于GATE的中文信息抽取系统的开发和实现[D];中国科学院研究生院(文献情报中心);2006年
2 赵琳瑛;基于隐马尔科夫模型的中文命名实体识别研究[D];西安电子科技大学;2008年
3 梁文婷;汉语文本主题分析技术的研究与实现[D];重庆大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 杨振乾;王学义;;装备保障进度的信息可视化研究[J];兵工自动化;2007年07期
2 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
3 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
4 祝希路;王柏;;支持区间型QoS的Web服务选择[J];北京邮电大学学报;2011年04期
5 方亮;;信息树在信息可视化中的应用[J];图书与情报;2007年02期
6 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
7 刘光远;董立岩;苑森淼;李永丽;刘辉;;基于位差的属性选择算法[J];吉林大学学报(信息科学版);2007年01期
8 向朝参;田畅;赵文栋;聂景楠;;语义Web服务的非功能性匹配研究[J];吉林大学学报(信息科学版);2012年01期
9 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
10 孟婵媛;李勤超;李宏伟;贾俊涛;;基于本体的地理信息查询检索方法研究[J];测绘科学;2008年S3期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
5 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
6 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
7 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
8 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 曹虹华;语义编程语言SPROGLE及其实现机制研究[D];武汉大学;2009年
4 赵娜;基于知识地图的多领域本体语义互联研究[D];吉林大学;2011年
5 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
6 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
7 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
8 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
9 陈文清;基于免疫机理的水泥生产工艺故障智能诊断方法研究[D];华中科技大学;2011年
10 李明;面向计算机辅助诊断的胶囊内镜图像处理与分析技术研究[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
5 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
6 孔健;基于半监督学习的社团划分算法研究[D];辽宁师范大学;2010年
7 卢加磊;半监督学习中协同训练与多视图方法的比较及改进[D];中国海洋大学;2010年
8 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
9 季浩;非线性系统的规律维及其可视化方法初探[D];合肥工业大学;2010年
10 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
2 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
3 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
4 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
5 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
6 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
7 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
8 陆汝钤,石纯一,张松懋,毛希平,徐晋晖,杨萍,范路;面向Agent的常识知识库[J];中国科学E辑:技术科学;2000年05期
9 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
10 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
中国重要会议论文全文数据库 前1条
1 张智雄;;数字图书馆中知识技术的研究和应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前7条
1 吴曾;文本主题切分技术和ROCCHIO模型在信息检索中应用的研究[D];中国科学院研究生院(软件研究所);2004年
2 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
3 温锐;中文命名实体识别及其关系抽取研究[D];苏州大学;2005年
4 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
5 倪丹;信息技术主题学习实践研究[D];东北师范大学;2007年
6 武旭晶;活知识的本质和形成[D];陕西师范大学;2007年
7 丁宏伟;内容知识库的研究和应用[D];北京信息控制研究所;2006年
【相似文献】
中国期刊全文数据库 前10条
1 蔡玉珍;;机械图形中的典型标注法[J];中等职业教育(理论);2008年01期
2 刘清海;姚亚楠;杨克魁;;特殊构成作者单位的标注方法建议[J];编辑学报;2010年06期
3 孙振起;;位置代号标注方法的探讨[J];国防技术基础;2007年12期
4 裴新军;;过刊合订本“刊名”标注方法[J];中小学图书情报世界;2008年05期
5 康保成;;论在Auto CAD中标注表面粗糙度的方法[J];科学之友(B版);2008年09期
6 康保成;;在Auto CAD中标注表面结构符号的一种方法[J];科学之友;2010年07期
7 唐健德;建立CAD粗糙度标注符号的方法[J];兵工自动化;1994年04期
8 陈桂鑫;;Excel表格添加标注两法[J];电脑迷;2006年08期
9 刘传生;;AutoCAD尺寸公差的标注方法[J];矿山机械;2008年10期
10 虎晓红;钱旭;兰洋;;基于Vague融合的自动图像标注方法[J];郑州大学学报(理学版);2010年01期
中国重要会议论文全文数据库 前10条
1 邹红建;杨尔弘;;以事件标注为核心的语篇标注研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 李毅;亢世勇;孙茂松;孙道功;;基于奥运语料的语义成分标注规范[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 赵泽宗;;比喻推理建构[A];逻辑今探——中国逻辑学会第五次代表大会暨学术讨论会论文集[C];1996年
4 呼和;陶建华;;蒙古语和蒙古语的合成[A];第九届全国人机语音通讯学术会议论文集[C];2007年
5 戴佐培;宋春林;李净;;基于本体的中医经络知识库的设计与开发[A];2008年中国高校通信类院系学术研讨会论文集(上册)[C];2009年
6 伍伟;李兵;曾诚;;基于本体的语义Web服务注册平台研究[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
7 陈冬菊;张发军;宫玉梅;何天白;;在嵌段共聚物本体与薄膜中结晶形貌的研究[A];2005年全国高分子学术论文报告会论文摘要集[C];2005年
8 广凯;魏鲲;金浩;潘金贵;;一种基于本体的上下文模型[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
9 康达周;徐宝文;陆建江;李言辉;;支持语义web模糊本体的描述逻辑(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
10 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 通讯员 黎军见习记者 陈恩挚;液态奶新标注方法今年起实施[N];杭州日报;2008年
2 黄家艳;川电三公司汽机工程处本体班获“全国质量信得过班组”[N];西南电力报;2002年
3 刘春田;“知识”的本体和现实形态[N];中国知识产权报;2004年
4 中国科学院计算技术研究所 黄瑞史忠植;加强知识的共享与重用[N];计算机世界;2007年
5 大江;锻造本体竞争力[N];中国改革报;2006年
6 蒋德;南京将统一公共信息标志[N];江苏科技报;2008年
7 深圳报业集团驻京记者 陆云红;改革开放之窗创新活力之都[N];深圳特区报;2006年
8 郑敏;也谈本体杂文[N];中国文化报;2003年
9 任玉岭;一本体现时代精神的哲学教材[N];光明日报;2003年
10 宏图三胞高级副总裁 花贵侃;企业需要一条灵活的“尾巴”[N];电脑商报;2007年
中国博士学位论文全文数据库 前10条
1 芮晓光;真实世界环境下的自动图像标注方法研究[D];中国科学技术大学;2010年
2 罗旺;遥感图像的变化检测与标注方法研究[D];电子科技大学;2012年
3 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
4 安杨;基于本体的网络地理服务中的关键问题研究[D];武汉大学;2005年
5 严亚兰;基于语义Web的知识处理研究[D];武汉大学;2005年
6 罗正鸿;D_4/APAEDMS本体开环共聚及其数学模拟[D];浙江大学;2003年
7 周明建;基于本体的开放式知识管理研究[D];浙江大学;2004年
8 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
9 王梅;基于多标签学习的图像语义自动标注研究[D];复旦大学;2008年
10 胡鹤;本体方法及其时空推理应用研究[D];吉林大学;2004年
中国硕士学位论文全文数据库 前10条
1 高琦;基于Bootstrapping的本体标注方法研究[D];重庆大学;2010年
2 彭杨;基于本体的动画素材图像语义标注研究[D];湖南师范大学;2009年
3 钟凯;基于OWL-S的Web Services语义标注技术研究[D];河海大学;2006年
4 黄超;篮球比赛视频标注方法研究及原型系统实现[D];青岛科技大学;2011年
5 王云;王阳明“本体——工夫”论的历史考察[D];山东师范大学;2002年
6 魏东辉;运用methontology为学习技术系统体系结构建立本体[D];太原理工大学;2004年
7 侯丽萍;《老子》“大美”思想及王弼的阐释—兼及对魏晋南北朝文艺思想影响[D];首都师范大学;2004年
8 任波;基于语义的Web服务发现研究[D];浙江工业大学;2005年
9 安立华;异构分布数据源中基于本体的个性化查询方法研究[D];大连海事大学;2005年
10 张春艳;基于Web服务的支持虚拟企业工作流技术的研究[D];福州大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026