收藏本站
《浙江大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于时序文本挖掘的新闻内容理解与推荐技术研究

陈伟  
【摘要】:互联网的诞生及发展,大大促进了信息的传播。作为信息传播的重要手段,网络新闻在互联网上扮演着非常重要的角色,已经成为网民最常使用的网络应用之一。网络新闻是网络上发布的“新近发生的事实的报道”,它较传统新闻传播媒介在时效性、容量、丰富性、易交互性、易检索性,以及多媒体化的呈现方式等方面都有巨大的优势,给人们的生活带来了巨大的便利和帮助。当然,海量的网络新闻也给人们带来了信息过载问题。 为了更好地满足各类网络用户的需求,提升网络用户的新闻获取体验,研究网络新闻内容的自动理解及推荐技术具有重要的意义。所谓新闻内容理解,是指从大量的新闻数据中抽取出事先未知的、可理解的、最终可用的知识,同时利用这些知识更好地组织新闻以帮助用户更好地获取这些信息。而新闻推荐技术则通过分析网络用户的各类新闻阅读行为,获得用户的喜好信息,结合对新闻内容的理解,向用户推荐其可能感兴趣的新闻。上述问题处理的大多是时序文本,涉及到时序文本挖掘技术的诸多方面。本文基于时序文本挖掘的相关技术,研究新闻内容理解和推荐涉及的多个问题,并提出了解决方案,具体的工作如下: 本文首先针对时序新闻数据集的事件检测问题,提出了一种基于突发特征分析的新闻突发事件检测方法。引入特征轨迹将构成时序新闻数据集的特征表示为时间序列;提出了一种特征轨迹小波域表示方法,并引入多尺度突发分析算法检测突发特征及突发跨度;提出了一种基于近邻传播聚类算法的突发事件检测算法,将特征突发模式的相似性、特征所在新闻的重合度、以及特征能量(表示特征的突发强度)作为近邻传播算法的输入,将突发特征聚类以构成事件,并引入事件能量衡量事件的突发水平。 针对时序新闻的在线突发事件检测问题,提出了一种在线的新闻突发事件检测及其进化分析方法。引入一种多尺度滑动窗口实时监控特征轨迹,并利用在线多尺度突发特征检测方法检测出当前时间窗口中具有不同突发跨度的突发特征;引入一个指数型的衰减因子衰减特征轨迹,并基于此计算突发特征之间的关联度;同样利用近邻传播聚类算法将突发特征聚类以检测出突发事件,利用能量衡量事件的突发水平;最后,提出了一种基于余弦相似度的信息检索方法发现事件在时间轴上的进化过程。 针对时序新闻突发事件检测算法在实时性、准确率等方面存在的问题,进一步提出了一种基于假设检验的在线突发事件检测方法。提出了一种基于随机过程的特征数据流表示方法,并运用分布拟合检验及左边检验检测突发特征;分析突发特征的相关性,引入进化谱聚类算法将相关性较高的突发特征聚类以构成事件。算法具备更高的实时性,并能更准确地检测某些突发特征及事件。 为了帮助人们更好地了解时序新闻,提出了一种时序新闻主题分解与摘要方法。在时序新闻的关键词一句子关联矩阵上应用非负矩阵分解(Non-negative Matrix Factorization,即NMF)获得子主题信息;通过分析非负矩阵分解获得的编码向量(encoding vector),发现属于每个子主题的事件,并为这些子主题及其包含的事件产生摘要;基于编码矩阵对句子进行排序,选择属于每个子主题的排名最高的若干句子作为该时序新闻的摘要。 针对视障及老年人群的网络新闻获取需求,提出并实现了一个个性化的有声网络新闻推荐及综合挖掘平台。提出了一种个性化的有声网络新闻推荐的体系架构,支持各类终端通过HTTP协议获取个性化的有声新闻。该架构支持两个层面的个性化,在提供新闻频道自适应导航的同时,能够根据用户对于多类主题的兴趣自动推送相关的新闻。最后设计并实现了该系统(简称网络搜音机服务系统)。除实现上述功能外,基于前述新闻内容理解的工作,系统还集成了热点事件检测、用户兴趣发现及热点事件与用户兴趣的可视化展示等功能,为用户提供有效的信息获取服务。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.1

免费申请
【参考文献】
中国期刊全文数据库 前9条
1 张海刚;;网络新闻的特点[J];华章;2009年12期
2 张瑾;许洪波;程学旗;;面向网络演化信息的动态文摘方法研究[J];计算机学报;2008年04期
3 刘玉葆;蔡嘉荣;印鉴;傅蔚慈;;Clustering Text Data Streams[J];Journal of Computer Science & Technology;2008年01期
4 秦兵,刘挺,李生;多文档自动文摘综述[J];中文信息学报;2005年06期
5 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
6 汤秋黎;;试论网络新闻的特征[J];青年记者;2008年35期
7 张阔;李涓子;吴刚;王克宏;;基于词元再评估的新事件检测模型[J];软件学报;2008年04期
8 赵新;;网络新闻的特点[J];新闻爱好者(理论版);2008年09期
9 杨晓玲;胡树祥;;网络媒体受众新趋势[J];政工研究动态;2008年24期
【共引文献】
中国期刊全文数据库 前10条
1 刘行芳;;应该赋予媒介充分的自由裁量权[J];安徽大学学报;2004年01期
2 徐文策;;转型期大众传媒失范前因透视[J];安徽农业大学学报(社会科学版);2007年01期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
5 刘婷婷;;基于支持向量机的水稻纹枯病识别研究[J];安徽农业科学;2011年28期
6 沈正赋;;信息耗散模式与新闻真实性——兼论香农—韦弗“噪音”说和马莱兹克系统模式[J];安徽师范大学学报(人文社会科学版);2012年02期
7 王志民;;社会新闻浅析[J];安徽文学(下半月);2008年08期
8 丛健;;浅析娱乐新闻的庸俗化[J];安徽文学(下半月);2009年03期
9 刘红军;;浅谈手机微博的亲和力传播[J];安徽文学(下半月);2010年05期
10 张媛;;论增加电视新闻节目的亲和力[J];安徽文学(下半月);2010年06期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
6 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
7 ;Image Classification with Ant Colony Based Support Vector Machine[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
9 刘英林;刘洪鹏;査星云;宋扬;;基于SVM的热轧钢卷性能分析[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
10 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 宋军;水交换模型的理论方法及应用研究[D];中国海洋大学;2010年
5 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
6 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
7 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
8 张志辉;网络条件下意识形态建设研究[D];南开大学;2010年
9 侯东阳;中国舆情调控机制的渐进与优化[D];暨南大学;2010年
10 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 秦璐;网络舆情引导方法研究[D];广西师范学院;2010年
4 李新文;中国新闻奖通讯作品研究[D];广西师范学院;2010年
5 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
6 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
7 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
8 任文娇;浅探我国省级党报体育新闻求新之路[D];上海外国语大学;2010年
9 刘磊;中国网络新闻报道客观性特征初探[D];上海外国语大学;2010年
10 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘雪梅;透视网络新闻专题的优势[J];中国传媒科技;2002年08期
2 王淑军;网络媒体 优势何在——一名实际工作者的视角[J];国际新闻界;2001年03期
3 秦兵;刘挺;王洋;郑实福;李生;;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
4 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
5 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
6 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
7 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
8 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[J];中文信息学报;2006年01期
9 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
10 宋丹;王卫东;陈英;;基于改进向量空间模型的话题识别与跟踪[J];计算机技术与发展;2006年09期
【相似文献】
中国期刊全文数据库 前10条
1 ;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期
2 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
3 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
4 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期
5 渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期
6 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
7 付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期
8 曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期
9 韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期
10 胥桂仙,杨丹丹,高旭,陈立新;中文文本挖掘中姓名特征提取技术的研究[J];中央民族大学学报(自然科学版);2003年04期
中国重要会议论文全文数据库 前10条
1 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
2 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
5 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
6 ;TRS搜索引擎和文本挖掘系统[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
7 王波;王厚峰;;基于自学习策略的产品特征自动识别(英文)[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 杨志豪;林鸿飞;;生物医学文献中的隐含知识发现[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 樊延平;马亚龙;袁野;;军事想定数据挖掘技术研究[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
10 王巍;杨武;张乐君;郑军;;支持网络话题管理的文本挖掘算法分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 汪洋 编译;BI平民化[N];计算机世界;2004年
6 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
7 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
8 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
9 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
10 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
中国博士学位论文全文数据库 前10条
1 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
2 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
7 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
8 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
9 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
10 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
2 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
3 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
4 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
5 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
6 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
7 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
8 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
9 杨瑞峰;WEB上基于文本挖掘的个性化检索系统的设计与实现[D];电子科技大学;2003年
10 赵天雪;潜在语义分析在答疑系统中的应用研究[D];吉林大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026