收藏本站
《重庆大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于HMM模型的Web信息抽取方法的研究与改进

刘斌斌  
【摘要】: 随着因特网技术的迅速发展,网上信息成几何级数增长,如何在海量联机文本中获取所需的信息成为目前重要的研究课题,因此,通用搜索引擎和垂直搜索引擎技术也日益成为人们研究的重点。相对于通用搜索引擎,垂直搜索引擎在信息抽取技术的支撑下,为用户提供更有针对性、更加直观的结构化信息。信息抽取是指从一段文本中抽取指定的信息(例如事件、事实),并将其形成结构化的数据填入数据库中供用户查询使用的过程。目前,信息抽取技术已经获得了长足的发展,然而在垂直搜索引擎中,基于网页模板的信息抽取仍然是最常使用的信息抽取方法。这种方法虽然有准确率和回召率高的优点,但在抽取网页格式多、变化频率高时,会降低抽取系统的灵活性,增加维护成本。 本文研究基于隐马尔可夫模型的Web信息抽取方法,并对隐马尔可夫模型在Web信息抽取中的应用提出了改进的方法。基于隐马尔可夫模型的Web信息抽取方法是基于机器学习的抽取方法,可以有效提高抽取模型的灵活度,降低维护成本。 本文阐述了Web信息抽取出现的背景和发展历史,剖析了Web信息抽取的典型系统所采用的方法,分析了信息抽取发展过程中有代表意义的利用机器学习算法学习文本特征的抽取技术和抽取系统。研究了隐马尔科夫模型与二阶隐马尔科夫模型的原理以及主要算法。如评估中的向前算法和向后算法;学习中用于完全标记训练样本的Maximum-Likelihood算法和用于部分标记训练样本的Baum-Welch算法;解码中的Viterbi算法。并着重探讨了隐马尔科夫模型在文本信息抽取中应该如何应用,对隐马尔科夫模型在文本信息抽取中的应用提出了改进的方法。并建立了基于HMM的Web信息抽取模型。 通过对信息抽取后的数据进行对比和分析,验证了对HMM模型的改进是行之有效的,达到了在垂直搜索引擎中的应用标准。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 孔胜;王宇;;一种基于正文特征的新闻网页抽取方法[J];情报杂志;2010年08期
中国硕士学位论文全文数据库 前4条
1 李巍;企业信息搜索引擎的设计与关键技术的研究[D];内蒙古农业大学;2011年
2 杨红超;基于HMM和BP网络混合模型的web文本信息抽取研究[D];南华大学;2011年
3 孙琼;基于BP神经网络与隐马尔科夫链的驾驶状态识别[D];合肥工业大学;2012年
4 任丽芳;教育新闻网页信息抽取系统的设计与实现[D];华南理工大学;2012年
【参考文献】
中国期刊全文数据库 前6条
1 杜世平,李海;二阶隐马尔可夫模型及其在计算语言学中的应用[J];四川大学学报(自然科学版);2004年02期
2 易高翔;胡和平;;基于软计算的Web挖掘研究进展与前景[J];计算机工程与设计;2006年10期
3 王新民;一种改进的隐马尔可夫模型训练算法[J];孝感学院学报;2004年03期
4 潘显民;;数据挖掘技术及其应用[J];湘潭师范学院学报(自然科学版);2007年01期
5 杜世平;;对经典隐马尔可夫模型学习算法的改进[J];高等数学研究;2006年04期
6 史笑兴,王太君,何振亚;二阶隐马尔可夫模型的学习算法及其与一阶隐马尔可夫模型的关系[J];应用科学学报;2001年01期
中国重要会议论文全文数据库 前1条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
【共引文献】
中国期刊全文数据库 前10条
1 黄晓斌;基于网络的文献知识发现系统研究[J];情报科学;2003年02期
2 陈萍丽;Web挖掘及其在竞争情报系统的应用[J];情报科学;2003年09期
3 王成云,王乐乐;基于页面链接挖掘的Web教育信息检索[J];情报科学;2004年04期
4 李向阳,苗壮;自由文本信息抽取技术[J];情报科学;2004年07期
5 耿爱丽;孙建红;;商务信息系统数据结构和数据库设计[J];情报科学;2006年09期
6 李超;王兰成;;应用领域本体的Web信息知识集成研究[J];情报科学;2007年03期
7 李树青;崔慧智;;Web信息检索系统中的网页质量分析方法评价[J];情报科学;2008年05期
8 邢国春;姜健;;基于智能Agent系统的Web数据挖掘系统结构的预取模型[J];情报科学;2009年12期
9 谭春辉;王晓;;基于本体与Web挖掘的企业网上信任危机预防模型研究[J];情报科学;2011年10期
10 王涛,孙河山;Web挖掘技术在搜索引擎中的应用[J];情报理论与实践;2002年04期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
5 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
6 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 詹宇斌;殷建平;周文兰;;基于概率关联图挖掘Web日志中有趣关联规则[A];2006年全国理论计算机科学学术年会论文集[C];2006年
9 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
10 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
4 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
5 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
6 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
9 马俊;信息技术嵌入的物流企业服务能力研究[D];武汉理工大学;2011年
10 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
5 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
6 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
7 景向永;电子资源使用统计标准化研究[D];大连理工大学;2010年
8 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
9 徐旭;基于决策树的Web应用系统个性化身份验证研究[D];合肥工业大学;2010年
10 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 庞景安;;Web文本特征提取方法的研究与发展[J];情报理论与实践;2006年03期
2 吕岸;胡振程;陈慧;;基于高斯混合隐马尔科夫模型的高速公路超车行为辨识与分析[J];汽车工程;2010年07期
3 康梅;东风标致307紧急制动辅助系统(上)[J];汽车维修技师;2005年11期
4 胡耀垓,李凯扬,钟毓宁;一种改进的神经网络BP算法[J];武汉大学学报(自然科学版);1999年01期
5 杨新武;李森;刘椿年;;基于BP网络的中文文本分类技术[J];微计算机应用;2008年03期
6 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
7 刘云中,林亚平,陈治平;基于隐马尔可夫模型的文本信息抽取[J];系统仿真学报;2004年03期
8 高乐;张健;田贤忠;;基于视觉的Web页面分块算法的改进与实现[J];计算机系统应用;2009年04期
9 杜世平;;对经典隐马尔可夫模型学习算法的改进[J];高等数学研究;2006年04期
10 李正,林跃,杨轶;ARM嵌入式系统在大型设备远程监控中的应用[J];仪器仪表学报;2005年S1期
中国博士学位论文全文数据库 前1条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 王海潮;基于网页结构的信息抽取关键技术研究[D];华南理工大学;2011年
2 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
3 胡磊;基于隐马尔科夫模型的语音识别技术研究[D];武汉理工大学;2007年
4 姜宏;基于Matlab/Simulink和神经网络的四轮转向车辆控制研究[D];南京航空航天大学;2007年
5 卢鸣;HMM基本原理及其在聚类中的应用[D];江南大学;2007年
6 邹腊梅;基于隐马尔可夫模型的Web文本挖掘技术研究[D];南华大学;2007年
7 王宇宁;隐马尔可夫模型在信息抽取中的应用研究[D];大连理工大学;2007年
8 赵俊芹;顾客评论信息抽取算法的研究[D];重庆大学;2007年
9 李守卫;基于轮速信号的侧向加速度估算与弯道制动控制算法研究[D];吉林大学;2008年
10 王硕;适用于化工专业搜索引擎的中文分词系统的研究与实现[D];北京化工大学;2008年
【二级引证文献】
中国期刊全文数据库 前4条
1 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
2 周亮;;“分类-产品”结构的网页数据精确抽取方法探寻[J];数字技术与应用;2011年12期
3 罗元;;网页净化及去重研究综述[J];现代计算机;2013年15期
4 李湘东;霍亚勇;黄莉;;图书网页的自动识别及书目信息抽取研究[J];现代图书情报技术;2014年04期
中国硕士学位论文全文数据库 前4条
1 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
2 李亚洲;文本分类语料库自动构建系统的研究与改进[D];武汉理工大学;2011年
3 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
4 段晓丽;Web文本自动文摘的研究[D];大连理工大学;2012年
【二级参考文献】
中国期刊全文数据库 前8条
1 杜世平,李海;二阶隐马尔可夫模型及其在计算语言学中的应用[J];四川大学学报(自然科学版);2004年02期
2 易高翔,程耕国;数据挖掘在Web智能化中应用研究[J];计算机工程与设计;2005年01期
3 王新民,姚天任;一种基于SSM的HMM训练算法[J];武汉大学学报(理学版);2003年05期
4 王新民,鲁德初;量化子空间分布隐马尔可夫模型的间接训练[J];孝感学院学报;2003年06期
5 王新民,姚天任;一种基于SDTS的HMM训练算法[J];信号处理;2003年01期
6 李滔,王俊普,徐杨;一种基于粗糙集的网页分类方法[J];小型微型计算机系统;2003年03期
7 卢正鼎,张素智;集成Web数据的系统框架与实现方法[J];小型微型计算机系统;2003年10期
8 涂承胜,陆玉昌;Web使用挖掘技术研究[J];小型微型计算机系统;2004年07期
中国重要会议论文全文数据库 前1条
1 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026