收藏本站
《重庆大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于HMM模型的Web信息抽取方法的研究与改进

刘斌斌  
【摘要】: 随着因特网技术的迅速发展,网上信息成几何级数增长,如何在海量联机文本中获取所需的信息成为目前重要的研究课题,因此,通用搜索引擎和垂直搜索引擎技术也日益成为人们研究的重点。相对于通用搜索引擎,垂直搜索引擎在信息抽取技术的支撑下,为用户提供更有针对性、更加直观的结构化信息。信息抽取是指从一段文本中抽取指定的信息(例如事件、事实),并将其形成结构化的数据填入数据库中供用户查询使用的过程。目前,信息抽取技术已经获得了长足的发展,然而在垂直搜索引擎中,基于网页模板的信息抽取仍然是最常使用的信息抽取方法。这种方法虽然有准确率和回召率高的优点,但在抽取网页格式多、变化频率高时,会降低抽取系统的灵活性,增加维护成本。 本文研究基于隐马尔可夫模型的Web信息抽取方法,并对隐马尔可夫模型在Web信息抽取中的应用提出了改进的方法。基于隐马尔可夫模型的Web信息抽取方法是基于机器学习的抽取方法,可以有效提高抽取模型的灵活度,降低维护成本。 本文阐述了Web信息抽取出现的背景和发展历史,剖析了Web信息抽取的典型系统所采用的方法,分析了信息抽取发展过程中有代表意义的利用机器学习算法学习文本特征的抽取技术和抽取系统。研究了隐马尔科夫模型与二阶隐马尔科夫模型的原理以及主要算法。如评估中的向前算法和向后算法;学习中用于完全标记训练样本的Maximum-Likelihood算法和用于部分标记训练样本的Baum-Welch算法;解码中的Viterbi算法。并着重探讨了隐马尔科夫模型在文本信息抽取中应该如何应用,对隐马尔科夫模型在文本信息抽取中的应用提出了改进的方法。并建立了基于HMM的Web信息抽取模型。 通过对信息抽取后的数据进行对比和分析,验证了对HMM模型的改进是行之有效的,达到了在垂直搜索引擎中的应用标准。
【关键词】:隐马尔科夫模型 信息抽取 机器学习
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1
【目录】:
  • 中文摘要4-5
  • 英文摘要5-8
  • 1 绪论8-14
  • 1.1 信息抽取技术的研究背景8
  • 1.2 信息抽取技术概述8-12
  • 1.2.1 定义8
  • 1.2.2 处理对象8-9
  • 1.2.3 信息抽取技术的组成9-10
  • 1.2.4 信息抽取系统10-11
  • 1.2.5 与其它文本处理工具的关系11-12
  • 1.3 信息抽取技术的挑战和发展趋势12-13
  • 1.3.1 信息抽取技术发展面临的挑战12
  • 1.3.2 信息抽取技术的发展趋势12-13
  • 1.4 本论文的组织形式13-14
  • 2 典型的信息抽取技术和系统14-24
  • 2.1 典型的信息抽取技术14-16
  • 2.1.1 基于包装器的信息抽取14
  • 2.1.2 基于隐马尔可夫模型(HMM)的信息抽取14-15
  • 2.1.3 基于DIPRE 方法的信息抽取15
  • 2.1.4 基于视觉分析的信息抽取15
  • 2.1.5 基于本体(Ontology)的信息抽取15-16
  • 2.2 典型的信息抽取系统16-22
  • 2.2.1 CRYSTAL 系统16-17
  • 2.2.2 RAPIER 系统17-18
  • 2.2.3 SRV 系统18
  • 2.2.4 WHISK 系统18-19
  • 2.2.5 (LP)~2 系统19-21
  • 2.2.6 HMMs 系统21
  • 2.2.7 BIEN 系统21-22
  • 2.3 本章小结22-24
  • 3 隐马尔可夫模型24-35
  • 3.1 隐马尔可夫模型简介24
  • 3.2 隐马尔可夫模型的三个主要问题24-25
  • 3.3 隐马尔可夫模型的主要算法25-29
  • 3.3.1 评估问题的解决算法25-27
  • 3.3.2 学习问题的解决算法27-29
  • 3.3.3 解码问题的解决算法29
  • 3.4 二阶隐马尔可夫模型29-35
  • 3.4.1 二阶隐马尔可夫模型的学习算法30-32
  • 3.4.2 Baum-Welch 算法32-33
  • 3.4.3 Viterbi 算法33-35
  • 4 HMM 模型在信息抽取中的应用和改进35-46
  • 4.1 引言35
  • 4.2 从数据中学习模型结构35-38
  • 4.3 已标记的、未标记的和远距离标记的数据38-42
  • 4.4 HMM 模型在信息抽取中的改进42-46
  • 4.4.1 平滑处理42-43
  • 4.4.2 符号串聚类43
  • 4.4.3 状态合并43-45
  • 4.4.4 隐马尔可夫模型中结合规则45-46
  • 5. 基于 HMM 的信息抽取模型的建立及实验结果46-57
  • 5.1 待建信息抽取模型的应用背景46-48
  • 5.2 信息抽取模型的实现48-55
  • 5.2.1 网页数据预处理50-51
  • 5.2.2 HMM 模型的建立51-53
  • 5.2.3 HMM 模型的训练53-54
  • 5.2.4 信息抽取的完成54-55
  • 5.3 实验结果及对比分析55-57
  • 6 总结57-58
  • 致谢58-59
  • 参考文献59-63
  • 附录63-65

【引证文献】
中国期刊全文数据库 前1条
1 孔胜;王宇;;一种基于正文特征的新闻网页抽取方法[J];情报杂志;2010年08期
中国硕士学位论文全文数据库 前4条
1 李巍;企业信息搜索引擎的设计与关键技术的研究[D];内蒙古农业大学;2011年
2 杨红超;基于HMM和BP网络混合模型的web文本信息抽取研究[D];南华大学;2011年
3 孙琼;基于BP神经网络与隐马尔科夫链的驾驶状态识别[D];合肥工业大学;2012年
4 任丽芳;教育新闻网页信息抽取系统的设计与实现[D];华南理工大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 贺前华,陆以勤,韦岗;一种新的HMM训练方法[J];电子学报;2000年09期
2 蔡猷花,张岐山;数据挖掘技术及其应用[J];管理科学文摘;2003年02期
3 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
4 邢永康,马少平;一种基于Markov链模型的动态聚类方法[J];计算机研究与发展;2003年02期
5 郝杰,李星;对经典隐马尔可夫模型的经验性改进[J];计算机工程与应用;2001年11期
6 涂承胜,鲁明羽,陆玉昌;Web挖掘研究综述[J];计算机工程与应用;2003年10期
7 薛为民,石志国,王志良;基于隐马尔可夫模型的复杂数据挖掘实现[J];计算机工程;2003年09期
8 姜吉发;一种跨语句汉语事件信息抽取方法[J];计算机工程;2005年02期
9 钟敏娟;郝谦;刘云中;;基于多模板隐马尔可夫模型的文本信息抽取算法[J];计算机工程;2006年02期
10 朱永盛;武港山;;基于Web的新闻信息抽取[J];计算机工程;2006年10期
中国重要会议论文全文数据库 前1条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
3 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
5 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
6 张克君;杨炳儒;赵耿;曲文龙;李欣;;一种分布式Web使用模式挖掘模型及算法[J];北京科技大学学报;2006年09期
7 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
8 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
9 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
10 谢秋华;;Web文本挖掘的相关技术问题探讨[J];长春理工大学学报;2010年07期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
5 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
6 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 詹宇斌;殷建平;周文兰;;基于概率关联图挖掘Web日志中有趣关联规则[A];2006年全国理论计算机科学学术年会论文集[C];2006年
9 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
10 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
4 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
5 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
6 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
9 马俊;信息技术嵌入的物流企业服务能力研究[D];武汉理工大学;2011年
10 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
5 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
6 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
7 景向永;电子资源使用统计标准化研究[D];大连理工大学;2010年
8 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
9 徐旭;基于决策树的Web应用系统个性化身份验证研究[D];合肥工业大学;2010年
10 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 潘涛;BP神经网络模型中活化函数对网络性能影响的研究[J];安徽师大学报(自然科学版);1998年03期
2 赵小燕;张朝晖;蓝金辉;;基于二叉树型分层BP模型的板形模式识别[J];北京科技大学学报;2009年02期
3 梁长垠,唐建东,吴光斌;基于DSP技术的汽车用传感器平台设计[J];传感器技术;2005年03期
4 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
5 刘爽;赵凯生;龙再川;冯林;;基于ARM和FPGA的嵌入式CCD采集系统[J];光电子.激光;2007年11期
6 王玉海;宋健;李兴坤;;基于模糊推理的驾驶员意图识别研究[J];公路交通科技;2005年12期
7 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
8 杨福平;白振兴;;BP神经网络和D-S证据理论的目标识别[J];火力与指挥控制;2006年10期
9 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
10 晋耀红,苗传江;一个基于语境框架的文本特征提取算法[J];计算机研究与发展;2004年04期
中国博士学位论文全文数据库 前1条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 王海潮;基于网页结构的信息抽取关键技术研究[D];华南理工大学;2011年
2 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
3 胡磊;基于隐马尔科夫模型的语音识别技术研究[D];武汉理工大学;2007年
4 姜宏;基于Matlab/Simulink和神经网络的四轮转向车辆控制研究[D];南京航空航天大学;2007年
5 卢鸣;HMM基本原理及其在聚类中的应用[D];江南大学;2007年
6 邹腊梅;基于隐马尔可夫模型的Web文本挖掘技术研究[D];南华大学;2007年
7 王宇宁;隐马尔可夫模型在信息抽取中的应用研究[D];大连理工大学;2007年
8 赵俊芹;顾客评论信息抽取算法的研究[D];重庆大学;2007年
9 李守卫;基于轮速信号的侧向加速度估算与弯道制动控制算法研究[D];吉林大学;2008年
10 王硕;适用于化工专业搜索引擎的中文分词系统的研究与实现[D];北京化工大学;2008年
【二级引证文献】
中国期刊全文数据库 前5条
1 段晓丽;王宇;谷静;刘玮楠;;基于正文特征及网页结构的主题网页信息抽取[J];计算机工程与应用;2012年30期
2 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
3 周亮;;“分类-产品”结构的网页数据精确抽取方法探寻[J];数字技术与应用;2011年12期
4 罗元;;网页净化及去重研究综述[J];现代计算机;2013年15期
5 李湘东;霍亚勇;黄莉;;图书网页的自动识别及书目信息抽取研究[J];现代图书情报技术;2014年04期
中国硕士学位论文全文数据库 前4条
1 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
2 李亚洲;文本分类语料库自动构建系统的研究与改进[D];武汉理工大学;2011年
3 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
4 段晓丽;Web文本自动文摘的研究[D];大连理工大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 杨浩荣,王作英,陆大紟;语音识别HMM中引入帧间相关信息的一种参数化模型[J];电子学报;1998年10期
2 邢永康,马少平;一种基于Markov链模型的动态聚类方法[J];计算机研究与发展;2003年02期
3 杨家红,杨格花,戴瑜兴;谱图数据库预处理KDD算法研究[J];计算机工程与应用;2001年19期
4 邵央,冯哲,李宗葛;HMM算法框架在银行语音服务中的实现[J];计算机工程;2000年11期
5 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
6 李颖基,彭宏,郑启伦;统一事件Web挖掘模型[J];计算机应用研究;2004年03期
7 钱敏平,龚光鲁;从数学角度看计算智能[J];科学通报;1998年16期
8 杜世平,李海;二阶隐马尔可夫模型及其在计算语言学中的应用[J];四川大学学报(自然科学版);2004年02期
9 易高翔,程耕国;数据挖掘在Web智能化中应用研究[J];计算机工程与设计;2005年01期
10 王新民,姚天任;一种基于SSM的HMM训练算法[J];武汉大学学报(理学版);2003年05期
中国重要会议论文全文数据库 前1条
1 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
【相似文献】
中国期刊全文数据库 前10条
1 许建潮,侯锟;Web信息的自主抽取方法[J];计算机工程与应用;2005年14期
2 郑伟;吕建新;张建伟;;文本分类中特征预抽取方法研究[J];情报科学;2011年01期
3 肖明军,张巍,邹翔,蔡庆生;一种多策略联合信息抽取方法[J];小型微型计算机系统;2005年04期
4 何明,冯博琴,马兆丰,傅向华;一种基于遗传算法的Rough集多知识抽取方法[J];小型微型计算机系统;2005年04期
5 董弘,丁晓青,吴佑寿;汉字的属性关系图描述及一种基于这种描述的偏旁抽取方法[J];中文信息学报;1987年03期
6 蔡虹,叶水生;基于KPS的Web信息抽取[J];计算机与现代化;2005年06期
7 郭跃飞,姜志华,杨静宇,邬永革,黄修武;一种新的代数特征抽取方法及人脸识别[J];南京理工大学学报;1997年05期
8 张世辉,孔令富;一种新的基于细化的汉字笔画抽取方法及其在汉字识别中的应用[J];计算机工程与应用;2002年16期
9 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
10 段江娇,郑文波;表格数据自动录入系统的一种数据抽取方法[J];计算机工程与应用;1998年01期
中国重要会议论文全文数据库 前4条
1 李萍;;基于现代谱估计理论的目标特征抽取方法研究[A];中国声学学会1999年青年学术会议[CYCA'99]论文集[C];1999年
2 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 刘海洁;时晓升;姚建民;李生;;基于标志词的EBMT翻译单元抽取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 冯太林;张学工;李衍达;;三维转换波地震资料CCP道集快速抽取[A];2000年中国地球物理学会年刊——中国地球物理学会第十六届年会论文集[C];2000年
中国重要报纸全文数据库 前3条
1 金玉言;流金岁月的回忆[N];中国信息报;2004年
2 ;药品招标今年将改革[N];广州日报;2004年
3 浙江大学 吴朝晖;计算机辅助新产品创意设计工具[N];计算机世界;2004年
中国博士学位论文全文数据库 前1条
1 张需溥;小型化微带天线的设计与数值分析[D];上海大学;2004年
中国硕士学位论文全文数据库 前10条
1 徐晓明;面向手机用户的社团抽取方法研究[D];吉林大学;2014年
2 曹媛;中文事件可信度信息标注和抽取方法的研究[D];苏州大学;2014年
3 李毅;半结构化文档中语义信息抽取方法的研究[D];清华大学;2004年
4 洪俊;基于Deep Learning的领域概念抽取方法研究[D];华东师范大学;2014年
5 陈晓静;陕西省公路信息基础数据元集编制研究[D];长安大学;2009年
6 高志刚;非成熟领域中业务构件抽取方法的研究与应用[D];河北大学;2004年
7 郭广行;基于软构件技术的教务管理系统的设计与实现[D];太原理工大学;2004年
8 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
9 梅胜;基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现[D];南京理工大学;2004年
10 张绍华;基于实例的Web信息抽取[D];河北大学;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026