收藏本站
《沈阳建筑大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

结构化信息抽取—半自动化包装器的研究与应用

商鹏程  
【摘要】:随着网络技术在当今世界的繁荣发展,网络上所承载的信息量也越来越多。在各种形式的网页所展示的数据中,包含结构化形式的数据的网页占有重要的地位,如何从这些结构化数据的页面中将用户感兴趣的数据抽取出来,就成为了当今数据挖掘领域研究的热点问题。目前,已经有许多基于结构化数据的抽取办法,以及许多抽取结构化数据的原理。本文主要研究了两种结构化网页形式,并针对两种形式的结构化网页分别研究改进了其相应的抽取算法。 第一种方法是针对平坦数据列表页形式的Web结构化页面的抽取算法。这种抽取算法通过对平坦数据列表页的源代码进行分析,生成相应的DOM树,通过DOM树中子树的比较将页面区分成几个数据区域;然后利用叶子节点的相似度找到蕴含目标数据的主数据区域,并对主数据区域中的数据记录进行识别;利用部分树对齐算法生成数据记录的抽取模式,抽取到目标数据。 这部分在原有算法的基础上,对抽取算法进行了改进,改进后的算法能够在数据区域中区分出主数据区域,即目标数据所在区域,这样减少了不同数据区域之间数据记录的比较工作,从而提高了数据记录识别的效率。 第二种方法主要处理详情页形式的Web结构化页面的数据抽取。这种抽取算法是基于半自动化形式的抽取算法;首先,需要人工的在待抽取的网页中选取一个样例,并对样例网页中的抽取目标项进行标注;针对标注的目标项算法找到抽取规则,并将规则应用于剩余网页的数据抽取,直到此规则不能抽取到目标数据,再将无法抽取的网页交付人工进行标注得到新的抽取规则,如此直到所有网页中的目标项抽取完毕。 论文在这种针对详情页的抽取算法中,采用了对网页样例进行单一标注的算法思想,从单一标注的样例中获得规则,对剩余网页进行抽取直到无法成功完成目标数据项的抽取,再将无法抽取的网页交付给人工进行标注,生成下一样例,如此迭代直到全部网页抽取完毕。这样保证了标注的准确性和完整性,并提高了工作的效率。 结合房产信息的特点,论文将两种形式的结构化网页抽取算法应用于房产信息页面的数据抽取。实验结果表明,两种算法能够较为准确的抽取到两种Web结构化形式页面中的目标数据项。
【学位授予单位】:沈阳建筑大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
2 王飞;;结构化立体网络安全运维管理体系建设构想[J];计算机安全;2011年07期
3 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
4 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
5 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
6 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
7 王兴国;;面向协同办公的统一信息平台架构设计及实施效果[J];冶金经济与管理;2011年04期
8 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期
9 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
10 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
中国重要会议论文全文数据库 前10条
1 张红春;何婷婷;涂新辉;周琨峰;;中文维基百科的结构化信息抽取及词语相关度计算[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
3 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
5 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
6 尹静萍;赵健;;电子病案应用问题探讨[A];中华医院管理学会病案管理专业委员会第12届全国病案管理学术会议论文集[C];2003年
7 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 熊亚波;;创新与激励并举 建设结构化的培训体系[A];科学发展观与劳动保障问题研究[C];2005年
9 张广财;王立民;林忠;王瑞利;;老版本FORTRAN程序的结构化改造[A];中国工程物理研究院科技年报(2005)[C];2005年
10 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 首都医科大学附属北京安贞医院信息中心副主任 周奕;多模块解决结构化难题[N];中国计算机报;2005年
2 姜安 深圳大学社会科学学院;美国制造:意识形态控制走向结构化[N];中国社会科学报;2011年
3 记者  赵艳秋;放弃与推动 结构化ASIC市场待考验[N];中国电子报;2006年
4 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
5 本报记者 徐超;结构化演变引领电信未来[N];通信产业报;2004年
6 马丁;雅虎亮新牌:结构化搜索功能[N];中华新闻报;2007年
7 信达资产管理公司成都办 钟锦 西南财经大学 周凯;结构化产品探路中国[N];证券时报;2006年
8 ;思科力推结构化无线感知型网络[N];计算机世界;2003年
9 新艳;思科倡导结构化无线感知型网络[N];通信产业报;2003年
10 记者  逸舟;LSI转型 结构化ASIC前景堪忧[N];中国电子报;2006年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
4 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
5 庞引明;基于结构化联接的XML查询模式匹配关键技术研究[D];复旦大学;2004年
6 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
7 李伟;结构化P2P网络Churn问题研究[D];武汉大学;2012年
8 余颖;城市结构化理论及其方法研究[D];重庆大学;2002年
9 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
10 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
中国硕士学位论文全文数据库 前10条
1 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
4 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
5 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
6 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
7 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
8 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
9 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
10 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026