收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于HMM的定题信息采集研究与实践

彭乐  
【摘要】: 本文针对Web信息采集领域存在的问题,围绕面向垂直搜索的定题信息采集技术这一中心,主要完成的工作内容如下: 第一,全面回顾了信息采集技术的研究历史,系统深入地分析了通用信息采集技术和已有定题信息采集技术各自存在的优缺点,以及就主题爬行涉及到的一些关键技术展开了谈论。通过学习和研究Web页面分布特性,得出一些可以用于主题爬行过程的规律。 第二,本文涉及的主题相关度判别部分,主要是借助于通用搜索引擎工具进行主题拓展、提取领域信息,动态地构建主题权重表。在得出主题权重表后,结合网页文本以及链接的元数据信息,提出了一种有效的主题爬虫相关度判别算法,来预测相似站点内页面和链接的主题相关度。以内容和链接组合而成的主题特征向量作为度量来发现站点内的主题资源,是本文较为核心的部分,同时为后续的建模过程做好铺垫。 第三,本文研究的重点是如何将隐马尔科夫模型(HMM)应用于定题信息采集领域。通过介绍HMM模型的理论知识和主要的算法,结合Web站点的主题层次结构以及主题特征向量,在对现有主题爬虫的缺陷和不足进行分析的基础上,提出了一套基于HMM模型的定题信息采集技术解决方案,同时对实现此方案过程中涉及到的相关问题进行了重点研究。 第四,本文在提出理论创新的同时,合理的整合一些开源技术,实现了一个主题爬行原型系统。在真实的Web环境下,针对多个不同主题的实验结果进行分析,表明利用HMM模型基于训练数据集的自动构造识别能力,使得我们的主题爬行策略可以明显地改善传统主题爬虫的一些缺点,提高主题相关度的预判精度,有效地避免主题漂移现象,在一定程度上缓解了tunneling问题,极大地节省了用户进行主题资源整合的时间,从而高质量地满足面向特定主题需求的用户群。 通过理论分析和原型实验表明,基于HMM模型的主题信息采集研究不仅具有重要的理论价值,而且还具有广阔的应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
2 李琳琢;;网络爬虫软件的研究与开发[J];软件导刊;2011年05期
3 邹永斌;陈兴蜀;王文贤;;基于贝叶斯分类器的主题爬虫研究[J];计算机应用研究;2009年09期
4 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期
5 金明珠;丁岳伟;;基于动态主题库的主题爬虫[J];计算机应用;2009年S2期
6 张俊;危韧勇;;基于连续HMM语音识别系统的构建与分析[J];计算机与现代化;2009年10期
7 马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期
8 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期
9 鲁林丽,丁明跃,刘小平;基于HMM的红外点目标序列图像扰动补偿方法[J];红外与激光工程;2000年04期
10 刘春丽,陈树中,韩安奇;隐马尔科夫模型及其在面像识别中的应用[J];计算机应用与软件;2004年04期
11 潘文平;沈春林;张赵行;邢建芳;;基于动态手势控制的交互式体三维显示[J];光电工程;2010年12期
12 钟锐;;基于隐马尔科夫模型的入侵检测系统研究[J];赣南师范学院学报;2011年03期
13 王天树,郑南宁,李岩,徐迎庆,沈向洋;用于动态序列合成的基于核密度估计的隐马尔科夫模型[J];计算机学报;2003年02期
14 梁佳玉,刘昌平,黄磊;脱机自由手写英文单词的识别[J];计算机应用;2004年09期
15 陈燕龙;钟碧良;;基于HMM和微粒群优化算法的表情识别[J];计算机工程;2008年13期
16 洪文,黄凤岗,苏菡;基于连续隐马尔科夫模型的步态识别[J];应用科技;2005年02期
17 马宝山;朱义胜;;基于隐马尔科夫模型的基因预测算法[J];大连海事大学学报;2008年04期
18 尹木;肖铮;;词性标注与动词细分类研究[J];电脑知识与技术;2009年24期
19 刘辉;杨俊安;许学忠;;基于HMM和SVM串联模型的低空飞行目标声识别方法[J];数据采集与处理;2010年06期
20 温炜;吕强;杨鹏;杨凌云;吴进珍;黄旭;;一种基于HMM的蛋白质侧链旋转异构体构造方法[J];小型微型计算机系统;2011年01期
中国重要会议论文全文数据库 前10条
1 王宏生;孙美玲;李家峰;;隐马尔科夫模型在构建语言模型中的应用[A];创新沈阳文集(A)[C];2009年
2 ;基于耦合隐马尔科夫模型的听觉视觉双模态语音识别[A];第六届全国人机语音通讯学术会议论文集[C];2001年
3 张劲松;戴蓓倩;郁正庆;王长富;;汉语识别中隐马尔科夫模型初始化的研究[A];第二届全国人机语音通讯学术会议论文集[C];1992年
4 于哲舟;杨佳东;周春光;王纲巧;;智能仪器嵌入式声纹识别技术方法[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
5 肖镜辉;刘秉权;;一种非时齐的隐马尔科夫模型及其在音字转换中的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 魏峰;徐成;曾祺;;基于HMM的语音识别技术研究[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
7 朱义;陈进;;基于HMM的设备性能退化评估方法的研究[A];2008年全国振动工程及应用学术会议暨第十一届全国设备故障诊断学术会议论文集[C];2008年
8 杨玥;王海鹏;毛睿;;一种基于HMM的老年人生活规律识别方法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
9 吴炜;梁昆;李瑞轩;辜希武;卢正鼎;;一种基于主题相关度的网页排序算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
10 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
中国博士学位论文全文数据库 前10条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
2 吴义坚;基于隐马尔科夫模型的语音合成技术研究[D];中国科学技术大学;2006年
3 吴振华;离线中文签名验证技术研究[D];华中科技大学;2006年
4 张小强;几类高效入侵检测技术研究[D];西南交通大学;2006年
5 杜修平;基于数据挖掘的证券态势估计系统[D];天津大学;2006年
6 王璐;未知环境中移动机器人视觉环境建模与定位研究[D];中南大学;2007年
7 赵立权;粒度计算的模型研究[D];安徽大学;2007年
8 余雪岗;无线局域网中的移动预测研究及应用[D];吉林大学;2007年
9 龙潜;噪声环境下的语音识别技术研究[D];中国科学技术大学;2007年
10 马宝山;基于信号处理理论和方法的基因预测研究[D];大连海事大学;2008年
中国硕士学位论文全文数据库 前10条
1 彭乐;基于HMM的定题信息采集研究与实践[D];东华大学;2010年
2 叶海燕;粒子群优化算法及其在股票市场预测优化问题中的应用[D];广州大学;2008年
3 杜守栓;方言口音普通话语音自动切分算法研究[D];中国科学院研究生院(计算技术研究所);2006年
4 张爽;基于HMM的转录因子结合位点识别方法研究[D];东北师范大学;2009年
5 李翠芸;联机手绘图形识别的自适应HMM方法[D];西安电子科技大学;2003年
6 刘斌斌;基于HMM模型的Web信息抽取方法的研究与改进[D];重庆大学;2008年
7 洪文;基于隐Markov模型的步态识别研究[D];哈尔滨工程大学;2005年
8 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
9 赵琳瑛;基于隐马尔科夫模型的中文命名实体识别研究[D];西安电子科技大学;2008年
10 孙美玲;基于概率统计的语义网构建的研究与实现[D];沈阳工业大学;2010年
中国重要报纸全文数据库 前10条
1 张娅玲 张坤如;余姚供电局安装用电信息采集器[N];国家电网报;2010年
2 记者 冯瑄 通讯员 张弦 马青雯;首批1600户居民用上“智能电表”[N];宁波日报;2010年
3 深圳商报记者 郑恺 万红金 实习生 肖敏 赵呈艳;数字化城管监督员月底上路[N];深圳商报;2006年
4 张弦 马青雯;数据直传主站 系统功能齐全[N];华东电力报;2010年
5 记者热娜·乌布力;乌鲁木齐迎来数字化城管时代[N];新疆日报(汉);2009年
6 朱润胜记者 林凤斌 宋柏松;港城实现城市无缝隙管理[N];河北日报;2008年
7 本报记者 丁国锋 本报通讯员 俞兴通;苏州确定六项工作打造平安城市[N];法制日报;2010年
8 士心;分拣封发系统常见操作问题的处理[N];中国邮政报;2007年
9 徐行翔;嘉兴,迎来城管模式全新变革[N];嘉兴日报;2005年
10 张悦仪 记者 汪光辉;城区划成网格 “手机”采集信息[N];成都日报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978