基于HMM的定题信息采集研究与实践
【摘要】:
本文针对Web信息采集领域存在的问题,围绕面向垂直搜索的定题信息采集技术这一中心,主要完成的工作内容如下:
第一,全面回顾了信息采集技术的研究历史,系统深入地分析了通用信息采集技术和已有定题信息采集技术各自存在的优缺点,以及就主题爬行涉及到的一些关键技术展开了谈论。通过学习和研究Web页面分布特性,得出一些可以用于主题爬行过程的规律。
第二,本文涉及的主题相关度判别部分,主要是借助于通用搜索引擎工具进行主题拓展、提取领域信息,动态地构建主题权重表。在得出主题权重表后,结合网页文本以及链接的元数据信息,提出了一种有效的主题爬虫相关度判别算法,来预测相似站点内页面和链接的主题相关度。以内容和链接组合而成的主题特征向量作为度量来发现站点内的主题资源,是本文较为核心的部分,同时为后续的建模过程做好铺垫。
第三,本文研究的重点是如何将隐马尔科夫模型(HMM)应用于定题信息采集领域。通过介绍HMM模型的理论知识和主要的算法,结合Web站点的主题层次结构以及主题特征向量,在对现有主题爬虫的缺陷和不足进行分析的基础上,提出了一套基于HMM模型的定题信息采集技术解决方案,同时对实现此方案过程中涉及到的相关问题进行了重点研究。
第四,本文在提出理论创新的同时,合理的整合一些开源技术,实现了一个主题爬行原型系统。在真实的Web环境下,针对多个不同主题的实验结果进行分析,表明利用HMM模型基于训练数据集的自动构造识别能力,使得我们的主题爬行策略可以明显地改善传统主题爬虫的一些缺点,提高主题相关度的预判精度,有效地避免主题漂移现象,在一定程度上缓解了tunneling问题,极大地节省了用户进行主题资源整合的时间,从而高质量地满足面向特定主题需求的用户群。
通过理论分析和原型实验表明,基于HMM模型的主题信息采集研究不仅具有重要的理论价值,而且还具有广阔的应用前景。
|
|
|
|
1 |
汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期 |
2 |
李琳琢;;网络爬虫软件的研究与开发[J];软件导刊;2011年05期 |
3 |
邹永斌;陈兴蜀;王文贤;;基于贝叶斯分类器的主题爬虫研究[J];计算机应用研究;2009年09期 |
4 |
戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期 |
5 |
金明珠;丁岳伟;;基于动态主题库的主题爬虫[J];计算机应用;2009年S2期 |
6 |
张俊;危韧勇;;基于连续HMM语音识别系统的构建与分析[J];计算机与现代化;2009年10期 |
7 |
马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期 |
8 |
汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期 |
9 |
鲁林丽,丁明跃,刘小平;基于HMM的红外点目标序列图像扰动补偿方法[J];红外与激光工程;2000年04期 |
10 |
刘春丽,陈树中,韩安奇;隐马尔科夫模型及其在面像识别中的应用[J];计算机应用与软件;2004年04期 |
11 |
潘文平;沈春林;张赵行;邢建芳;;基于动态手势控制的交互式体三维显示[J];光电工程;2010年12期 |
12 |
钟锐;;基于隐马尔科夫模型的入侵检测系统研究[J];赣南师范学院学报;2011年03期 |
13 |
王天树,郑南宁,李岩,徐迎庆,沈向洋;用于动态序列合成的基于核密度估计的隐马尔科夫模型[J];计算机学报;2003年02期 |
14 |
梁佳玉,刘昌平,黄磊;脱机自由手写英文单词的识别[J];计算机应用;2004年09期 |
15 |
陈燕龙;钟碧良;;基于HMM和微粒群优化算法的表情识别[J];计算机工程;2008年13期 |
16 |
洪文,黄凤岗,苏菡;基于连续隐马尔科夫模型的步态识别[J];应用科技;2005年02期 |
17 |
马宝山;朱义胜;;基于隐马尔科夫模型的基因预测算法[J];大连海事大学学报;2008年04期 |
18 |
尹木;肖铮;;词性标注与动词细分类研究[J];电脑知识与技术;2009年24期 |
19 |
刘辉;杨俊安;许学忠;;基于HMM和SVM串联模型的低空飞行目标声识别方法[J];数据采集与处理;2010年06期 |
20 |
温炜;吕强;杨鹏;杨凌云;吴进珍;黄旭;;一种基于HMM的蛋白质侧链旋转异构体构造方法[J];小型微型计算机系统;2011年01期 |
|