收藏本站
《南京航空航天大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

互联网新闻实时信息采集及主题探测研究

谭胜  
【摘要】:互联网新闻已经成为人们获取信息、了解新闻的最重要的渠道。它同其他网络资源一样,存在着信息过载的问题。搜索引擎已经在很大程度上解决了用户快速获取需要的信息的问题。凭借强大的搜索功能,用户可以很快的找到关注事件的相关新闻。这是通过传统的关键词检索技术来完成的,将导致分散的主题相关信息被孤立的检索出来,其中包含的热点事件,焦点事件都被忽视了,包含于其中的有价值的信息将得不到不充分的利用。如何快速、及时的寻找同一新闻主题相关事件之间的结构和相互关联,帮助用户及时理解和把握新闻事件的全局概貌和来龙去脉,理清事件的内在逻辑,成为当下的一个研究热点。 本文首先对信息采集和主题探测的基础理论方法进行研究,介绍了互联网信息采集技术的基本原理和主题探测的产生和相关技术。然后针对实时新闻信息采集策略从两个方面进行了深入的研究。一方面,为了提高系统采集效率,从分布式系统设计的要点出发,对分布式信息采集的URL选择、负载平衡、协调策略和可扩展性这四个方面作了详细分析;另一方面,针对实时性要求,提出改进的采集频率的计算方式。有了网页信息采集结果的基础后,接下来对网页的新闻主题进行探测。首先分析现有在线增量式主题探测应用于新闻网页主题探测上的不足,提出了基于主题描述模型的主题相关性分析方法用于判断网页与某个主题之间的相关性。为了提高主题探测的效率和质量引入了主题加窗策略和动态修正主题描述实例的方法。 最后针对实时信息采集和主题探测两个部分分别设计了对照实验,对本文提出方案的性能进行论证。实验结果表明该分布式信息采集系统能够实现负载均衡,并具有良好的可扩展性,实时采集效果理想,主题探测系统能够很好的检测出当前互联网上出现的各种新闻主题事件,并能准确的将当前的重大热点新闻主题反映出来。
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092

【相似文献】
中国期刊全文数据库 前10条
1 王长征;蒋玲;薛见海;张清;;实现组态软件流程图的Web化[J];现代制造;2010年36期
2 韦雪洁;刘良聪;张智美;白文静;;基于LabVIEW的通信系统的构建[J];北华航天工业学院学报;2011年04期
3 谭长贵;;论编辑的思维结构及功能[J];中国科技期刊研究;2001年02期
4 付光;;面向招聘信息主题搜索引擎的研究与设计[J];广西教育;2011年18期
5 郑培昊;肖磊;;基于多维度展现的企业门户发展思路探讨[J];电力信息化;2011年05期
6 薛蕾;;能量管理系统服务子系统WebS的设计[J];江苏电机工程;2011年04期
7 常鹏;马辉;;高效的短文本主题词抽取方法[J];计算机工程与应用;2011年20期
8 孙楠;张华伟;;一种新的用于数据挖掘工具的网页净化算法[J];郑州轻工业学院学报(自然科学版);2011年03期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 孙周军;肖文名;;基于组合策略网页防篡改系统实现方法研究[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
2 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
3 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄天航;;面向数字城市规划的数据仓库构建中主题信息的组织与提取研究——以大北京区域规划为例[A];规划创新:2010中国城市规划年会论文集[C];2010年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 吴筱媛;邓红素;顾宁;邱君瑞;耿亦兵;;一种支持信息发现的元数据描述方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
9 马英民;;论革命历史类博物馆现代展示理念与手法[A];回顾与展望:中国博物馆发展百年——2005年中国博物馆学会学术研讨会文集[C];2005年
10 张鑫;;刍议地方综合年鉴索引[A];创新与发展——云南省年鉴论文选[C];2003年
中国重要报纸全文数据库 前10条
1 黎哮苍;百度“交友型”网页发布暂未见IM踪影[N];第一财经日报;2008年
2 黄璞琳;有偿显示信息应具有广告识别性[N];中国工商报;2011年
3 本报记者 边歆;赶潮SaaS[N];网络世界;2007年
4 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
5 游峰杜建民;“十里长街”可游玩购物[N];东莞日报;2008年
6 吴悦;广告,给消费者认知填空[N];中国经营报;2007年
7 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年
8 张巍柏;弱势监管下的权证扩容只是圈钱机器[N];第一财经日报;2005年
9 于翔;Google Office呼之欲出[N];网络世界;2006年
10 张淼淼 王佳;“名校游”:被催生后谁来“埋单”[N];华东旅游报;2006年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年
3 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年
4 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年
5 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
8 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
9 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
10 黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 谭胜;互联网新闻实时信息采集及主题探测研究[D];南京航空航天大学;2011年
2 王海潮;基于网页结构的信息抽取关键技术研究[D];华南理工大学;2011年
3 林勐;交易型网页界面的编排设计研究[D];山东轻工业学院;2012年
4 冯胜;基于正文结构和长句提取的网页去重研究[D];重庆大学;2010年
5 王星;新闻网页抽取技术的研究与实现[D];河北工业大学;2011年
6 任丽芳;教育新闻网页信息抽取系统的设计与实现[D];华南理工大学;2012年
7 彭正非;面向汽车行业的主题爬虫研究与实现[D];华中科技大学;2011年
8 林碧霞;基于领域本体的主题爬虫研究及实现[D];西南交通大学;2010年
9 张一凡;基于文档频率的分级主题模型[D];北京邮电大学;2011年
10 耿明名;网页UI设计中的沟通艺术[D];哈尔滨理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026