收藏本站
《华中科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

Web新闻热点发现系统的设计与实现

徐卫  
【摘要】:过去几十年,互联网作为一种新兴事物,发展十分迅速,信息量也急剧增长。随着门户网站、论坛、社区等平台日益成熟,网上短消息、即时通讯、博客、微博等技术应用迅速普及,互联网逐渐成为网民自由发表言论、表达情绪的重要平台,也更容易让网民关注的热点在短时间内发展成舆情。 这些引起网民广泛关注的热点在不法分子的推波助澜下很可能对社会造成重大影响。因此,迫切需要在热点形成初期就进行适当的引导。本文设计并实现的Web新闻热点发现系统就是解决这个问题的基础。以Web新闻标题和正文分词结果为基础,本文的亮点是对Web新闻特点进行了深入分析,针对重复转载新闻、热点演化新闻和评论性新闻分别采取了不同处理思路,并选择了文档主题发现效果较好的基于SNN密度文本聚类算法,以Web界面的形式呈现系统自动发现的热点。最后,以样本新闻集人工分类的结果作为参照对系统热点发现的效果进行了准确率和召回率的评估,准确率较高,召回率一般。 本文讨论了Web新闻热点发现系统的开发背景和整体需求,紧紧围绕Web新闻的特点,提出了系统的功能层次结构,详细阐述了Web新闻热点发现流程每个环节的具体设计思路和实现步骤,并对系统Web新闻热点发现的效果进行了测试和评估,总体效果较好,也总结了一些经验。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前3条
1 王海涌,郑丽英,刘丽艳;基于文本表示的特征项权值确定方法研究[J];甘肃科学学报;2005年03期
2 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
3 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
中国重要会议论文全文数据库 前1条
1 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
中国硕士学位论文全文数据库 前10条
1 赖文杰;教育新闻热点话题发现系统的设计与实现[D];华中科技大学;2011年
2 郑军;网络舆情监控的热点发现算法研究[D];哈尔滨工程大学;2007年
3 宋飞燕;基于密度聚类算法及其模式评估方法的研究与实现[D];内蒙古科技大学;2007年
4 罗成;Web新闻话题检测与追踪技术研究[D];解放军信息工程大学;2007年
5 杨梅;网络舆情热点发现的研究[D];北京交通大学;2008年
6 李莹;聚类结果评价方法与聚类知识提取技术的研究[D];南京航空航天大学;2008年
7 李兆福;基于K最短路径的中文分词算法研究与实现[D];哈尔滨工程大学;2009年
8 段明秀;层次聚类算法的研究及应用[D];中南大学;2009年
9 陈立娜;基于本体的旅游领域Web信息抽取[D];广西师范大学;2009年
10 李婷;校园BBS舆情分析系统的设计与实现[D];华中科技大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
2 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
3 冀强;;基层公安BBS舆情及有害信息监控研究[J];才智;2009年22期
4 鲁明羽;姚晓娜;魏善岭;;基于模糊聚类的网络论坛热点话题挖掘[J];大连海事大学学报;2008年04期
5 许志凯;徐志明;李栋;李生;;面向互联网新闻的话题检测与追踪[J];智能计算机与应用;2011年03期
6 罗晖霞;曲晓玲;;基于网络舆情的K-Means算法的改进研究[J];电脑开发与应用;2010年08期
7 王利峰;;动态索引树文本聚类方法中节点阀值的优化[J];电脑开发与应用;2010年09期
8 李六杏;区凤霞;;基于最优属性约简的中文邮件过滤系统[J];电脑知识与技术(学术交流);2007年05期
9 魏晓宁;;基于隐马尔科夫模型的中文分词研究[J];电脑知识与技术(学术交流);2007年21期
10 张磊;张代远;;中文分词算法解析[J];电脑知识与技术;2009年01期
中国重要会议论文全文数据库 前10条
1 彭楠赟;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
3 杨江;侯敏;;语言文字舆情论略[A];中国传媒大学第四届全国新闻学与传播学博士生学术研讨会论文集[C];2010年
4 朱春江;陆宇旻;李陶深;杜衡斌;唐晟;;分布式网络监控系统中网页安全挖掘的研究[A];广西计算机学会2008年年会论文集[C];2008年
5 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
7 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
9 何中军;刘群;林守勋;;统计机器翻译中短语切分的新方法[A];第三届学生计算语言学研讨会论文集[C];2006年
10 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
2 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
3 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
4 陈彬;面向DEVS的多范式建模与仿真关键技术研究与实现[D];国防科学技术大学;2010年
5 刘晓茜;云计算数据中心结构及其调度机制研究[D];中国科学技术大学;2011年
6 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
7 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
8 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
9 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
10 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
中国硕士学位论文全文数据库 前10条
1 张琪;网络舆论被主流媒体引导的必要性和可行性研究[D];上海外国语大学;2010年
2 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
3 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
4 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
5 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
6 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
7 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
8 常富国;高技术虚拟企业谈判支持问题处理系统研究[D];哈尔滨理工大学;2010年
9 潘锦龙;数据挖掘技术在人才流失分析中的应用[D];华南理工大学;2010年
10 艾凌云;基于蚁群算法和粗糙集方法的聚类分析研究[D];南昌大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 宋柔;计算机辅助汉语校对系统[J];当代语言学;2001年01期
4 王宇,杨莉;模糊k-prototypes聚类算法的一种改进算法[J];大连理工大学学报;2003年06期
5 刘志成,文全刚;“K-中心点”聚类算法分析及其实现[J];电脑知识与技术;2005年06期
6 袁新颜;;简析XML与HTML的结合[J];电脑知识与技术(学术交流);2007年07期
7 陈玮;;MD5加密原理及安全性分析[J];电脑知识与技术(学术交流);2007年19期
8 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
9 赵颖斯;刘云;;BBS舆情系统的数据采集方法[J];电信快报;2008年12期
10 周永权,焦李成;高属性维稀疏数据聚类回归逻辑神经网络模型及学习算法[J];电子学报;2004年08期
中国重要会议论文全文数据库 前2条
1 骆卫华;刘群;程学旗;;话题检测与跟踪技术的发展与研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 ;中文信息处理重大成果汇报展方正集团展示内容介绍[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国博士学位论文全文数据库 前2条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 张颖;数据采掘的研究与应用[D];中国科学院研究生院(计算技术研究所);1999年
中国硕士学位论文全文数据库 前10条
1 卞荣兵;基于网格密度的数据挖掘的研究与应用[D];南京气象学院;2003年
2 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
3 虞玲玲;基于文本分类的话题跟踪及其一元语法模型的应用[D];南京理工大学;2005年
4 刘艺琴;基于本体的Web非规范知识处理中信息抽取技术研究[D];昆明理工大学;2005年
5 马腾;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2006年
6 林琳;基于ontology的Web表格内容抽取的研究与实现[D];电子科技大学;2006年
7 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
8 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
9 金微;基于遗传算法的k-means聚类方法的研究[D];河海大学;2007年
10 周旭;BBS热点分析系统研究[D];北京交通大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
2 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
3 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
4 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
5 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
6 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
7 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
8 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
9 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期
10 梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期
中国重要会议论文全文数据库 前10条
1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
2 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
3 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
4 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
5 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
8 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
9 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
10 王辉;面向互联网的Web服务基础设施构建和应用[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
2 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
3 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
4 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
5 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
6 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年
7 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
8 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年
9 任强;基于谓词抽象与精化技术的Web服务验证研究[D];苏州大学;2011年
10 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026