收藏本站
《南华大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于HMM和BP网络混合模型的web文本信息抽取研究

杨红超  
【摘要】:随着Internet的发展,web上的信息正爆炸式增长,由于信息的无序性以及人们不满足于自己去检索必要的信息,等等诸如此类的需求推动了web文本信息抽取的研究。但是目前信息抽取中使用的主要技术,存在一些问题,比如自适应性不好,统计能力不强等,造成抽取结果中的准确性和召回率较低,通过分析以上问题,本文提出了一种基于混合模型的方法,能较好的改善上述问题,提高抽取质量。 本文通过介绍在文本信息抽取领域使用的两种主要技术:隐马尔可夫模型(HMM)和BP网络,并分析了二者的优缺点,HMM是一种优秀的统计学模型,其优越的时序性,动态性和优秀的建模能力已经使得该模型成功应用于各个领域,但其适应性交差,并需要大量的训练数据;BP网络有优秀的决策能力,对不确定信息的描述能力以及自适应性较强,但是该模型时序性不强,而且需要特定的输入条件。在此基础上研究如何通过隐马尔科夫模型和神经网络模型的结合,来提高目前信息抽取方法的准确性和召回率。通过分析发现,两种模型在优缺点上互补,将HMM与BP网络结合在一起,可以即克服HMM在分类能力以及适应性上的不足,又可以弥补BP网络需要特定输入和建模能力弱等缺陷。 在分析了前人对信息抽取技术的改进后,本文采用对待抽取文本进行分块的方法,首先将文本进行人工标注,然后对各状态进行多HMM训练,将HMM训练后的最佳状态输出概率作为BP网络的输入,在BP网络中进行映射,运用BP网络分类能力强的特点对文本状态进行映射分类。实验结果表明,该混合模型比传统的HMM模型或者BP网络的分类能力在准确率上有了约15%的提高,在分析了实验结果以及网络结构的基础上,通过对BP网络的算法进行改进,使得在抽取过程中,分类效果尚不明显的易混淆状态在准确率上又有了4%左右的提高。
【学位授予单位】:南华大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前7条
1 潘涛;BP神经网络模型中活化函数对网络性能影响的研究[J];安徽师大学报(自然科学版);1998年03期
2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
3 晋耀红,苗传江;一个基于语境框架的文本特征提取算法[J];计算机研究与发展;2004年04期
4 王磊,廖晓峰;基于改进BP算法的入侵检测神经网络方法[J];计算机工程与应用;2004年31期
5 庞景安;;Web文本特征提取方法的研究与发展[J];情报理论与实践;2006年03期
6 胡耀垓,李凯扬,钟毓宁;一种改进的神经网络BP算法[J];武汉大学学报(自然科学版);1999年01期
7 杨新武;李森;刘椿年;;基于BP网络的中文文本分类技术[J];微计算机应用;2008年03期
中国博士学位论文全文数据库 前1条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前4条
1 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
2 邹腊梅;基于隐马尔可夫模型的Web文本挖掘技术研究[D];南华大学;2007年
3 赵俊芹;顾客评论信息抽取算法的研究[D];重庆大学;2007年
4 刘斌斌;基于HMM模型的Web信息抽取方法的研究与改进[D];重庆大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
2 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
3 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
4 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
5 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
6 张红涛;胡玉霞;张恒源;顾波;;储粮害虫图像识别中的特征压缩研究[J];安徽农业科学;2008年27期
7 张昭;何东健;;基于计算机视觉的竹块颜色分类方法研究[J];安徽农业科学;2010年26期
8 汪洁;朱军;;基于Linux的中文垃圾邮件过滤系统设计与实现[J];安徽农业大学学报;2011年02期
9 苏科;陈志彬;;基于BP神经网络的车牌识别系统[J];辽宁科技大学学报;2010年05期
10 孙梁;郗安民;;LED芯片损坏和缺陷识别[J];半导体光电;2009年06期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
4 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
5 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
6 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
7 刘华;张建华;王娆芬;王行愚;;人机系统操作员功能状态的模糊聚类方法[A];第二十九届中国控制会议论文集[C];2010年
8 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
9 尹雪娇;;基于蚁群算法的故障诊断[A];创新沈阳文集(A)[C];2009年
10 江萍;;车牌分割中的阈值选择策略[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
2 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
5 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
6 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
7 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
8 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
9 徐红林;基因调控网络的建模及其结构分解方法研究[D];江南大学;2010年
10 傅军;新型墙体抗裂抗渗性能及工程应用研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
6 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
7 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
8 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
9 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
10 陈楠楠;互动音乐桌[D];山东科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 吕宏伯,黄铮,张方;神经网络BP算法的一种改进[J];北京工业大学学报;1995年01期
2 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
3 景丽萍,黄厚宽;Web文本挖掘及特征选择[J];电脑与信息技术;2002年01期
4 陈磊,冯玉珉;一种基于网页自动分类的分类查询搜索引擎[J];电脑与信息技术;2004年06期
5 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
6 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
7 蒋群;胡桃;;中国比较购物网站的调查分析和发展建议[J];电子商务;2006年11期
8 贺前华,陆以勤,韦岗;一种新的HMM训练方法[J];电子学报;2000年09期
9 胡明东,张列平,胡长泰,彭冰;用户满意研究的现状与发展方向[J];系统工程;1998年01期
10 蔡猷花,张岐山;数据挖掘技术及其应用[J];管理科学文摘;2003年02期
中国重要会议论文全文数据库 前1条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 罗晓光;基于顾客购后行为的顾客满意度评价研究[D];哈尔滨工程大学;2006年
中国硕士学位论文全文数据库 前4条
1 吕晓辉;Web信息提取技术研究[D];西北工业大学;2001年
2 李威;基于向量空间的文本自动分类系统的研究和实现[D];兰州理工大学;2005年
3 邹娟;面向中文文本的特征值提取[D];湘潭大学;2005年
4 王煜;Internet智能比较购物的研究与实现[D];浙江工商大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 谭锋;李天真;崔亮亮;;Web信息抽取系统研究综述[J];科技创新导报;2010年34期
2 卢红杰;;基于Web数据的信息抽取技术[J];兰台世界;2006年07期
3 王锟;;WEB文档信息抽取方法研究[J];福建电脑;2008年03期
4 王钢明;屠建飞;;基于Web信息抽取的技术成果信息采集系统[J];成组技术与生产现代化;2007年04期
5 秦振海;谭守标;徐超;;基于Web的表格信息抽取研究[J];计算机技术与发展;2010年02期
6 李姗;黄水源;;基于XML的WEB信息抽取模型设计[J];微计算机信息;2009年09期
7 熊惠荟;欧阳君;;基于模板法的网页英语试卷自动抽取技术的研究[J];计算机与数字工程;2009年04期
8 蒋邵衡;;WEB信息的抽取与集成研究[J];电脑知识与技术;2009年30期
9 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
10 陈俊彬;;Web信息抽取策略及其实现方法研究[J];科技情报开发与经济;2008年23期
中国重要会议论文全文数据库 前10条
1 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 王海燕;谷明哲;王静;孟小峰;;基于预定义模式的Web信息抽取[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
6 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
7 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
4 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
5 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
6 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
7 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
8 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
9 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
10 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 杨红超;基于HMM和BP网络混合模型的web文本信息抽取研究[D];南华大学;2011年
2 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
3 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
4 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
5 朱道辉;基于条件随机域的Web信息抽取研究[D];南华大学;2010年
6 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
7 全福亮;面向精确Web信息抽取的自动数据记录分析和识别技术研究[D];南京大学;2011年
8 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
9 钱浩;Web信息抽取技术的研究与应用[D];东北石油大学;2011年
10 张洪恩;基于语义的Web信息抽取方法的研究与应用[D];重庆大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026