收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向专业领域的网络信息采集及主题检测技术研究与应用

吴永辉  
【摘要】:随着互联网应用成为生活中不可缺少的工具,网络用户在查找相关信息时不得不面对各种主题混杂的海量网页信息。快速变化的信息需求使传统搜索引擎越来越难以满足用户更加专业和个性化的需求,用户已经不仅仅满足于相关信息的检索,越来越多的网络用户需要更加专业和个性化的信息服务来获取当前网络上发生的事件和领域信息相关的热点。本文将自然语言处理方法和数据挖掘方法相结合,研究了面向专业领域信息采集的自适应增量更新模型以及领域信息主题检测和新闻推荐的问题,使用自然语言处理技术对领域信息进行精细划分,向网络用户提供专业和个性化的知识服务。 及时而完备的信息采集是提供专业领域知识服务的前提。在信息采集技术方面,有关通用网络爬虫采集器部分已经有比较完善的研究,但是对于大规模专业领域信息的增量、自适应采集问题依然没有较好的解决方案。领域信息的增量自适应采集是提供在线领域知识服务的基础。本文针对这一问题提出了领域信息采集的自适应增量更新的模型,有效的提高了在线知识服务系信息采集的效率和质量。 面向专业领域的主题检测和热点推荐是知识服务的重要组成部分。在传统主题检测的相关研究中,基于文本聚类算法已经给出了基本的解决方案。但传统的基于文档特征共现的特征提取方法,无法满足专业领域在线主题检测的要求。 对于领域信息在线主题检测和新闻推荐系统,网页文本的维度过大是增加系统开销的主要原因。本文提出了一种基于容错粗糙集的特征提取和在线主题检测方法。对于在线主题检测问题,采用以特征词为单位的聚类方法,提出了以半结构化文档中主题性较强区域出现的特征词和名词性词为基础,以容错粗糙集扩展为辅的特征选择和压缩方法,缓解了由于文档数目增加带来的系统开销。实验表明,本文的特征提取和主题聚类方法,可以有效的降低特征空间维数,加快在线主题检测速度,降低聚类结果中不同主题类别之间的覆盖度,提高在线主题检测的准确率。同时,对基于Single-Pass聚类方法的新事件检测问题进行了改进,使用增量TF-IDF模型和时间线分析方法,提出了一种基于时间线分析的Single-Pass在线新事件检测方法。 为了进一步提高专业领域主题检测的准确率,本文研究了主题模型在网络主题检测问题中的应用,提出了一种面向专业领域的自适应主题检测方法。对领域信息使用浅层语义分析的方法,提取领域信息基于主题的共现特征。对概率假设不同的几个具有代表性的主题模型进行了比较研究,对比了常见主题模型在主题检测问题中的应用效果。针对传统的基于文档共现特征对语义描述不足的问题,提出了基于主题模型的主题共现特征提取和文档距离描述方法。文本经过主题模型的主题分解过程被映射到潜在语义空间,根据潜在语义结构可以抽取文档的“主题共现”特征。文档潜在的主题结构也可以在语义空间中得到更好的描述。相关实验表明,主题模型可以更有效的抽取文档的主题共现特征,提高领域信息主题检测的准确率,缓解网页规模增加带来的系统性能下降问题。 真实网络环境中存在的主题数目是未知且不断变化的。面向专业领域的主题新闻推荐系统,需要自适应的检测出增量更新的网页信息中存在的主题。本文结合LDA主题模型和仿射传播算法提出了一种自适应网络主题检测和基于主题的新闻推荐算法。实验表明,本文提出的自适应主题检测和主题新闻推荐算法,可以根据增量更新网页集的变化,自适应发现接近于真实主题结构的领域信息主题,抓住领域信息的热点,有效的进行基于主题的新闻推荐。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 马向玲,马向阳,李伟;用Dreamweaver制作博士招生网站[J];教育信息化;2001年08期
2 小贝壳;保存网页的利器——网文快捕信息管理速战[J];电脑应用文萃;2004年03期
3 ;剖析恶意网页修改注册表[J];电脑数码采购周刊;2005年02期
4 miniworm;;圆角的革命[J];电脑爱好者;2007年07期
5 张启宇;朱玲;车忠志;;网页文件元数据的自动提取[J];电脑与电信;2008年04期
6 陈宁江;杜凡远;;网页防篡改应用技术分析[J];现代机械;2009年03期
7 中英;;神奇的Internet临时文件夹[J];网络科技时代(数字冲浪);2002年01期
8 李佩华;制作网络版课件的快捷途径[J];教育信息化;2004年06期
9 于艳杰;网页文件上传方法分析与研究[J];哈尔滨学院学报;2005年05期
10 流言;;“傲游”因特网 生活从此更精彩……[J];电脑爱好者;2006年02期
11 汪学祥;;企业内部网软件平台的一种构建方案[J];山西煤炭管理干部学院学报;2007年03期
12 孙媛;;Java Applet内嵌网页运行初探[J];科技风;2010年12期
13 孙媛;;Java Applet运行浅论[J];电脑知识与技术;2010年21期
14 红客王子;;装个文件监控器 保护网站安全[J];电脑爱好者;2011年09期
15 林栋;网页文件的检测工具HTML Validator[J];多媒体世界;2000年01期
16 郑建标;;基于VFP的网页客户端组件的开发与应用[J];现代电子技术;2006年17期
17 miniworm;;虫虫织网记之三:此时无声胜有声 网页设计中怎样选择适当的字体、字号[J];电脑爱好者;2007年03期
18 阎月;;浅议网页制作的一般规范[J];科技信息(学术研究);2007年01期
19 赵满来;杨有占;;浅探“现代教学管理信息系统”的成绩表导出方法[J];陇东学院学报(自然科学版);2007年02期
20 付维英;;“制作简单网页”教学设计[J];中国教育技术装备;2011年01期
中国重要会议论文全文数据库 前10条
1 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 张星星;穗志方;;基于网页中深度并列结构的实例提取算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
4 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
5 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 黄天航;;面向数字城市规划的数据仓库构建中主题信息的组织与提取研究——以大北京区域规划为例[A];规划创新:2010中国城市规划年会论文集[C];2010年
7 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 陈成;岳志伟;;浅谈政府门户网站的网络安全[A];中国航海学会航标专业委员会沿海航标学组、无线电导航学组、内河航标学组年会暨学术交流会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年
3 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 吕宁;基于上下文的个人信息管理研究[D];华中科技大学;2012年
8 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
9 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年
10 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年
2 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年
3 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年
4 张宁;面向农业信息的主题爬虫的研究与设计[D];北京邮电大学;2010年
5 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年
6 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年
7 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年
8 孔辉;一种网页防篡改系统的设计与实现[D];北京邮电大学;2011年
9 梁建飞;网络环境下获取汉维篇章级平行语料的研究[D];新疆大学;2011年
10 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
中国重要报纸全文数据库 前10条
1 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年
2 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年
3 天涯;利用卡巴斯基删除顽固文件[N];电脑报;2007年
4 刘成富;编辑网页有妙法[N];计算机世界;2004年
5 海浪轻风;一二三说变就变[N];中国电脑教育报;2005年
6 邹本堃;“磁碟机”与“熊猫烧香”谁比谁更毒[N];中国消费者报;2008年
7 ;网站安全必不可少的保护神[N];中国计算机报;2005年
8 本报记者  刘志伟 通讯员  万学才;网监警方智破“熊猫烧香”案[N];科技日报;2007年
9 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
10 姜元学;初哥上网三注意[N];中国电脑教育报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978