收藏本站
《清华大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

半结构化文档中语义信息抽取方法的研究

李毅  
【摘要】:在目前的互联网中,大量电子信息资源以半结构化文档的形式存在,对半结构化文档中的内容信息实现有效的抽取并加以利用,具有良好的应用前景和研究价值。由于半结构化文档在排版、组织和语言等方面比较灵活,传统的信息抽取方法很难取得良好的效果。为了有效地抽取出半结构化文档中的语义信息,应当充分利用半结构化文档集的领域相关性和文档中结构信息的指导作用,将结构特征与词法、语义、表现形式等其他特征相结合,建立专门针对半结构化文档特点的智能化信息处理模型。 在对半结构化文档处理研究中可以利用逻辑视图、语义视图和表示视图构成的半结构化文档三层视图模型,分别从逻辑结构、基于语义和内容的表示,以及数据显示方式三个不同的角度对半结构化文档进行描述。本文的工作重点是充分利用文档的逻辑结构表示-逻辑视图,研究建立向文档语义视图的映射模型和算法,主要包括语义视图元数据建模、以结构信息为指导的语义对象匹配算法以及对词法特征的相似度分析等。 半结构化文档的逻辑视图和语义视图都以树状结构描述信息,在从逻辑视图到语义视图的映射过程中不仅以单个树节点的词法特征、表现形式等作为匹配依据,而且综合考查子树与子树之间的整体匹配情况,从而提高了语义对象匹配算法的准确性。 在词法特征的相似度分析算法中,通过确定的有限自动机将逻辑视图中的文本与语义视图中描述语义对象的规则相匹配,着重考查连续匹配成功的片段,以计算文本与语义对象的综合相似度,确定二者的匹配程度。该算法的特点是通过引入相似度计算,有效地为不完全匹配的情况提供了决策依据。 本文在研究上述半结构化文档语义信息抽取方法的过程中,以国内某证券交易所上市公司的年报文档作为数据集进行语义信息抽取实验,得到了比较满意的效果。
【学位授予单位】:清华大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前2条
1 余承健;;基于表格语义的Web信息抽取方法的研究[J];电脑知识与技术;2008年12期
2 马康;;基于结构化文档的测试需求分析自动化提取研究[J];信息化研究;2015年01期
中国硕士学位论文全文数据库 前3条
1 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
2 闫学东;基于语义的半结构化文档检索[D];清华大学;2005年
3 喻灿;基于本体概念的半结构化文本语义检索[D];华中科技大学;2012年
【参考文献】
中国期刊全文数据库 前4条
1 许学标,顾宁,施伯乐;半结构化数据模型及查询语言[J];计算机研究与发展;1998年10期
2 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
3 黄豫清,邹涛;基于约束的半结构化信息的抽取方法[J];计算机应用与软件;2002年01期
4 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
【共引文献】
中国期刊全文数据库 前10条
1 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
2 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
3 赵江江;秦兵;;基于BootStrapping的中文事件元素抽取系统设计与实现[J];智能计算机与应用;2012年01期
4 霍娜;吕国英;;基于规则匹配的灾难性追踪事件信息抽取的研究[J];电脑开发与应用;2012年06期
5 方莹,葛寒松;基于聚类的分级信息抽取方法初探[J];电脑知识与技术;2005年30期
6 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
7 余承健;;基于表格语义的Web信息抽取方法的研究[J];电脑知识与技术;2008年12期
8 胡静芳;沈亚斌;;基于Web的新闻采集系统[J];电脑知识与技术;2009年19期
9 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期
10 孙娜;;基于本体的文本分类研究综述[J];电脑知识与技术;2011年10期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
3 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
4 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 乐明;冯志伟;;RST的理论发展和工程应用综述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 张桂平;蔡东风;徐立军;尹宝生;陈建军;;以互联网为知识源的基于语段分析的交互式机器翻译技术的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
2 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
3 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
4 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
5 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
6 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
7 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
8 许建潮;Web挖掘中若干问题的研究[D];吉林大学;2005年
9 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
10 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前10条
1 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
2 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
3 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
4 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
5 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
6 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
7 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
8 蒋子鹏;基于人机交互的英文动词聚类的研究[D];北京交通大学;2011年
9 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
10 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
【同被引文献】
中国期刊全文数据库 前10条
1 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
2 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期
3 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
4 李丹;;软件测试需求的开发与管理[J];电子产品可靠性与环境试验;2008年05期
5 吴劲,陈泽琳;基于部分匹配的XML文本文档向量检索模型[J];电子学报;2002年S1期
6 李新叶;苑津莎;;一种快速的XML语义检索算法[J];电子学报;2007年11期
7 柳佳刚;刘高嵩;贺令亚;陈山;;基于Web的信息抽取技术现状与发展[J];福建电脑;2007年07期
8 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
9 方启明;杨广文;武永卫;朱安平;郑纬民;;面向P2P搜索的可定制聚焦网络爬虫[J];华中科技大学学报(自然科学版);2007年S2期
10 武成岗,焦文品,田启家,史忠植;基于本体论和多主体的信息检索服务器[J];计算机研究与发展;2001年06期
中国博士学位论文全文数据库 前3条
1 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
2 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
3 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
中国硕士学位论文全文数据库 前9条
1 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
2 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
3 薛惠忠;WEB信息的抽取与集成[D];东南大学;2004年
4 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年
5 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
6 吴爱珍;HTML表格数据抽取与集成[D];武汉大学;2004年
7 邵伟峰;一个支持协同编辑的结构化文档版本管理系统的设计与实现[D];苏州大学;2006年
8 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年
9 李广丽;垂直搜索引擎的研究与设计[D];华东交通大学;2008年
【二级引证文献】
中国硕士学位论文全文数据库 前4条
1 李汝亮;基于Web的旅游突发事件信息搜索和获取技术研究[D];北京邮电大学;2009年
2 张志超;基于Hadoop的双语语料采集系统[D];哈尔滨工业大学;2013年
3 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
4 万峰;交通信息标准辅助编写系统研究与实现[D];长安大学;2014年
【二级参考文献】
中国期刊全文数据库 前1条
1 李小滨,徐越;自动文摘系统EAAS[J];软件学报;1991年04期
【相似文献】
中国期刊全文数据库 前10条
1 杨建武,陈晓鸥;半结构化文档集的结构模式提取的研究与实现[J];计算机工程;2001年10期
2 熊金波;姚志强;金彪;;云计算环境中结构化文档形式化建模[J];计算机应用;2013年05期
3 范轶彦,朱利群,郭国强;一种基于内容权值的结构化文档检索方法[J];辽宁工学院学报;2004年06期
4 熊金波;姚志强;马建峰;李凤华;李琦;;基于行为的结构化文档多级访问控制[J];计算机研究与发展;2013年07期
5 徐建民;陈振亚;;一种用于结构化文档检索的贝叶斯网络[J];计算机工程;2011年13期
6 赵爽;徐建民;;基于贝叶斯网络的结构化文档检索模型[J];计算机工程与应用;2007年21期
7 苏铓;李凤华;史国振;李莉;;面向多级安全的结构化文档描述模型[J];通信学报;2012年S1期
8 赵爽;吕震宇;林永民;;结构化文档检索模型的改进研究[J];情报科学;2010年11期
9 黄龙军;俞杭女;;Word域在结构化文档管理中的应用[J];绍兴文理学院学报(自然科学版);2004年03期
10 杨志刚;;基于CSS的结构化文档视觉信息伪装技术实现[J];软件导刊;2013年01期
中国重要会议论文全文数据库 前2条
1 李彦;李建中;杨艳;;结构化文档中基于概念的检索[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 杨建武;陈晓鸥;;半结构化文档集的结构化处理及其Web发布[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国博士学位论文全文数据库 前1条
1 熊金波;云计算环境中文档安全访问与自毁研究[D];西安电子科技大学;2013年
中国硕士学位论文全文数据库 前7条
1 施秀丽;基于语义Web技术的非结构化文档管理方法研究[D];南京航空航天大学;2012年
2 李毅;半结构化文档中语义信息抽取方法的研究[D];清华大学;2004年
3 闫学东;基于语义的半结构化文档检索[D];清华大学;2005年
4 赵爽;基于贝叶斯网络的结构化文档检索[D];河北大学;2006年
5 陈富节;基于同义词扩展的贝叶斯网络结构化文档检索模型[D];河北大学;2008年
6 赵嫣;信息检索中结构化文档相关度计算方法的研究[D];山东大学;2007年
7 王云鹏;非结构化文档数据抽取与分析系统的设计与实现[D];天津大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026