收藏本站
《大连理工大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义和链接的话题跟踪方法

宋丹  
【摘要】: 作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻媒体信息中新话题的自动识别以及对已知话题的动态跟踪。话题识别与跟踪(TDT)技术可以把分散的信息有效地汇集并组织起来,使人们能够从整体上了解一个事件的全部细节以及该事件与其它事件之间的关系。 话题跟踪作为话题识别与跟踪的一项子任务,是指根据给出的某一话题的一则或多则报道,把与该话题相关的报道联系起来。本文主要研究了话题跟踪,在借鉴国内外关于话题跟踪研究的先进技术的同时,也对新闻报道的自身特点进行了有益的探索。将语义和链接分析引入到了话题跟踪方法中,利用链接则对Web新闻网页的针对性更强,利用语义则对新闻报道内容刻画更形象具体。实验证明基于语义和链接的跟踪方法提高了跟踪的性能。 Web新闻网页不同于传统的文本文档,一部分Web新闻网页以新闻图片和相关链接为主,而只有极少的文字内容,这使得传统的基于内容计算的话题跟踪方法很难发挥好的效果。因此,本文主要研究了链接分析在Web话题跟踪中的应用,提出了一种基于内容计算和链接分析相结合的针对Web新闻信息的话题跟踪方法。 由于向量空间模型中的向量维数较高,重要的特征词经常会被区分能力较弱的特征词所淹没,且对事件表示不够形象直观,本文提出了一种利用语义框架来表示话题和报道的方法。 最后,将话题跟踪方法应用于科技文献,使话题跟踪思想的应用不单单局限于新闻报道。讨论了适用于科技文献的权重计算方法。采用了基于同义词的话题模型扩充方法,跟踪过程中采用了一种利用引文关系的类KNN方法。实验证明这一应用比较合理。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 陈慧娜;陈一鸣;;新闻话题探测技术的研究[J];信息与电脑(理论版);2011年08期
中国硕士学位论文全文数据库 前4条
1 马秀敏;中国典型管理期刊文献主题发现与演化分析[D];大连理工大学;2011年
2 孙玉婷;基于概率主题模型的中文话题检测与追踪研究[D];华中科技大学;2010年
3 廖秀玲;基于文本的网络舆情话题跟踪的研究[D];昆明理工大学;2012年
4 张科;面向视障用户的数字化图书馆信息获取关键技术研究[D];电子科技大学;2013年
【参考文献】
中国期刊全文数据库 前7条
1 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报;2000年05期
2 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
3 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
4 王会珍;朱靖波;季铎;叶娜;张斌;;基于反馈学习自适应的中文话题追踪[J];中文信息学报;2006年03期
5 何佳讯;;引用行为的新模型——对评价性引证分析和引文检索有效性的讨论[J];情报科学;1992年02期
6 张进;情报检索中的集成相似性测度法研究[J];武汉大学学报(自然科学版);1998年03期
7 刘悦,杨志峰,程学旗,王斌;利用链接分析技术提高搜索引擎查找质量的研究[J];微电子学与计算机;2002年05期
【共引文献】
中国期刊全文数据库 前10条
1 税仪冬;瞿有利;黄厚宽;;周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J];北京交通大学学报;2009年05期
2 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
3 许志凯;徐志明;李栋;李生;;面向互联网新闻的话题检测与追踪[J];智能计算机与应用;2011年03期
4 谢林燕;戚银城;孙卓;;地点信息在话题检测中的应用[J];电子科技;2012年01期
5 陈学昌;韩佳珍;魏桂英;;话题识别与跟踪技术发展研究[J];中国管理信息化;2011年09期
6 丁荩;涂浩;;微博感知突发重大新闻事件的研究与分析[J];广西大学学报(自然科学版);2011年S1期
7 邱立坤;龙志祎;钟华;程葳;;层次化话题发现与跟踪方法及系统实现[J];广西师范大学学报(自然科学版);2007年02期
8 仲兆满;刘宗田;周文;付剑锋;;基于事件的文本相似度计算[J];广西师范大学学报(自然科学版);2009年01期
9 付涛;戴玉刚;周登;;链接分析在主题信息检索系统中的应用[J];电脑与电信;2009年01期
10 武军娜;戚银城;杨迪;张华芳子;刘明军;;时间信息在话题跟踪中的应用[J];电子科技;2012年07期
中国重要会议论文全文数据库 前9条
1 陈都;郑玲;;基于反馈学习的自适应搜索机制的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 张晓菲;张火明;高明正;;三种智能优化算法的研究进展[A];中国仪器仪表学会第十一届青年学术会议论文集[C];2009年
3 邱立坤;陶然;龙志祎;程葳;;面向互联网的话题发现技术研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
4 宋丹;林鸿飞;杨志豪;;一种利用链接分析的Web话题跟踪方法[A];第三届学生计算语言学研讨会论文集[C];2006年
5 丁伟莉;赵华;郑德权;赵铁军;于浩;;中文Blog热门话题检测与排序技术研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑伟;张宇;邹博伟;洪宇;刘挺;;基于相关性模型的中文话题跟踪研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 张阔;李涓子;吴刚;;基于关键词元的话题内事件检测[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
9 钱铁云;许承瑜;王丽娜;尹为民;;一种基于社区划分的科技主题识别算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
2 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
3 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
4 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
5 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
6 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
7 单建芳;面向事件的文本表示研究[D];上海大学;2012年
8 刘悦;WWW上链接分析算法的若干研究[D];中国科学院研究生院(计算技术研究所);2004年
9 段宇锋;网络链接分析与网站评价研究[D];武汉大学;2004年
10 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
2 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年
3 王允;网络舆情数据获取与话题分析技术研究[D];解放军信息工程大学;2010年
4 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年
5 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
6 和婷;面向机械产品设计领域中自然语言理解的动词聚类[D];西安电子科技大学;2011年
7 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
8 赵青;图书馆学情报学期刊高被引论文的内容与形式研究[D];南京大学;2011年
9 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
10 刘旭;基于互联网数据的话题发现及追踪技术研究与实现[D];复旦大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 薛为民;陆玉昌;;文本挖掘技术研究[J];北京联合大学学报(自然科学版);2005年04期
2 倪丽娟;于淑丽;;档案学研究热点分析——基于2004—2008年《档案学研究》、《档案学通讯》论文关键词的词频分析[J];档案学通讯;2010年01期
3 唐思慧;邓美维;;我国信息无障碍研究综述[J];档案学通讯;2011年03期
4 赵颖斯;刘云;;BBS舆情系统的数据采集方法[J];电信快报;2008年12期
5 吴绍忠;李淑华;;互联网络舆情预警机制研究[J];中国人民公安大学学报(自然科学版);2008年03期
6 李舒晨;刘云;李勇;;网络舆情分析中网页信息预处理方案的实现[J];电脑与电信;2008年10期
7 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
8 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
9 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
10 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
中国重要会议论文全文数据库 前1条
1 骆卫华;刘群;程学旗;;话题检测与跟踪技术的发展与研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前4条
1 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
2 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
3 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
4 叶娜;文本分割关键技术及其在多文档摘要中的应用研究[D];东北大学;2008年
中国硕士学位论文全文数据库 前10条
1 马军红;文本相似度计算理论与应用研究[D];西北大学;2011年
2 全德;基于潜在语义索引的文本分类技术的研究[D];东北大学;2005年
3 常兴治;基于全局评价的文本分割技术研究[D];东北大学;2005年
4 虞玲玲;基于文本分类的话题跟踪及其一元语法模型的应用[D];南京理工大学;2005年
5 马睿;元数据检索及两种挖掘算法在图书个性化推荐中的应用研究[D];吉林大学;2006年
6 王磊;协同推荐技术及其在科技文献个性化推荐系统中的应用研究[D];南京理工大学;2007年
7 庞雅丽;基于统计的中文新闻网页分类技术研究[D];西北师范大学;2007年
8 罗成;Web新闻话题检测与追踪技术研究[D];解放军信息工程大学;2007年
9 骆国靖;基于主题模型的模块化网络和社区挖掘研究[D];浙江大学;2008年
10 李峰;新闻线索与主题探测[D];上海交通大学;2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 葛昊;叶艳;包西林;吴敏;;基于主题模型的英语写作批阅系统个性化推荐模块设计与实现[J];科技和产业;2013年06期
中国硕士学位论文全文数据库 前1条
1 张红卫;基于科技文献的时序主题链构建方法研究[D];大连理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前4条
1 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
2 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
3 刘开瑛,薛翠芳,郑家恒,周晓强;中文文本中抽取特征信息的区域与技术[J];中文信息学报;1998年02期
4 龚义台;;引文的两重性[J];情报科学;1991年02期
中国重要会议论文全文数据库 前1条
1 王会珍;朱靖波;陈文亮;季铎;张斌;;基于一元语法模型的中文话题追踪[A];第二届全国学生计算语言学研讨会论文集[C];2004年
【相似文献】
中国期刊全文数据库 前10条
1 刘海娟;张佳骥;陈勇;;基于改进权重计算的话题跟踪[J];无线电工程;2008年04期
2 金珠,林鸿飞,赵晶;基于HowNet的话题跟踪及倾向性分类研究[J];情报学报;2005年05期
3 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
4 郭炜强;戴天;文贵华;;基于领域知识的专利自动分类[J];计算机工程;2005年23期
5 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
6 张娜;张化祥;;基于超链接和内容相关度的检索算法[J];计算机应用;2006年05期
7 杨丽华;戴齐;郭艳军;;KNN文本分类算法研究[J];微计算机信息;2006年21期
8 田正军;张鸿彦;;基于自动分类的邮件过滤系统[J];河南科学;2007年02期
9 周文霞;;现代文本分类技术研究[J];武警学院学报;2007年12期
10 朱宗乾;姬浩;杨冬民;;基于网络的ERP实施风险评价信息挖掘模型[J];计算机工程;2008年07期
中国重要会议论文全文数据库 前10条
1 林鸿飞;宋丹;杨志豪;;基于语义框架的话题跟踪方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 郑伟;张宇;邹博伟;洪宇;刘挺;;基于相关性模型的中文话题跟踪研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年
6 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 原福永;杨治秋;王海霞;;一种基于向量空间模型的文档聚类算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
9 林游龙;余智华;程学旗;刘悦;;虚点:一种减少特征值鸿沟的方法[A];第六届全国信息检索学术会议论文集[C];2010年
10 苏贵洋;王永成;马颖华;;信息自动获取的结构模型[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前3条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
3 姜靖;信息爆炸引发阅读模式变革[N];科技日报;2009年
中国博士学位论文全文数据库 前10条
1 陆前;英、汉跨语言话题检测与跟踪技术研究[D];中央民族大学;2013年
2 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
3 邢军;领域本体构造中数据源选取及构造方法的研究[D];大连理工大学;2008年
4 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
5 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
6 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
7 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
8 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
9 王菁;P2P系统中资源管理机制的研究[D];中国科学技术大学;2007年
10 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 宋丹;基于语义和链接的话题跟踪方法[D];大连理工大学;2007年
2 刘佳;面向微博的热点话题发现及跟踪[D];华南理工大学;2012年
3 武军娜;自适应话题跟踪技术研究[D];华北电力大学;2013年
4 毛文娟;话题跟踪和可视化技术在涉农网络舆情系统中的应用研究[D];南京农业大学;2012年
5 林雪能;基于语义框架的话题检测与跟踪技术研究[D];北京邮电大学;2013年
6 陈智敏;中文报道关系识别与话题跟踪研究[D];广西大学;2013年
7 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
8 张波;个性化Web搜索系统研究[D];燕山大学;2006年
9 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
10 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026