收藏本站
《解放军信息工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

网络中文事件自动检测技术研究

刘嵩  
【摘要】:在现代通信技术及互联网技术高速发展的今天,如何以事件为线索,对构成事件的元素进行分析,抽取事件并对其进行精确描述,从海量互联网数据中快速准确地搜集到感兴趣的信息,已成为当前智能信息处理方向的研究热点。本文研究网络中文事件自动检测技术,主要包括:中文事件自动标注、时间信息提取技术、事件自动抽取技术及基于事件抽取的话题自动检测技术,主要取得如下三个方面的研究成果: (1)对中文事件抽取中的时间信息进行详细研究,提出一种基于自定义规则的时间信息提取方法。该方法针对传统时间信息提取目标单一的缺点,对文本中所涉及的时间信息进行详细分类,明确时间提取范围。然后根据文本中出现时间的规律,利用正则表达式,对不同时间制定不同的提取规则,实现自定义规则的时间信息提取。实验结果表明,新方法在时间提取的准确率和召回率上优于传统方法,是一种有效的时间信息提取方法。 (2)研究了中文事件抽取,针对传统方法对事件类别限定的局限性,提出了一种基于触发词指导的自相似度聚类事件抽取方法。该方法改变了传统方法以词为实例进行分类的做法,在事件类别判断上引入聚类思想,将K-means算法应用于事件抽取。同时,在事件触发词的指导下,采用自相似度最大最小策略,对K-means算法中的K值进行自收敛,优化了聚类算法,完成了事件的类别判断。最后,根据文本中命名实体及其位置信息,对事件元素进行详细描述,解决了事件抽取方法对类别模板的依赖性,实现了中文事件抽取。实验结果表明,新方法无论是事件抽取的准确率还是召回率,均优于传统方法,为中文事件抽取提供了新的思路。 (3)研究了事件抽取在话题检测中的应用,改变了传统话题检测方法中根据向量夹角余弦进行文本相似度计算的做法,提出一种基于概念相似度计算的话题检测方法。该方法首先对待检测样本及话题集合进行分析,对其中的事件元素及其描述信息进行抽取,并构造文本向量空间模型。然后利用知网知识计算其概念相似度、词相似度及文本单元相似度,完成概念相似度计算。最后,通过相似度比较,实现基于概念相似度计算的话题自动检测。实验结果表明,与传统话题检测方法相比较,新方法所检测话题明确,话题的漏检率及误检率低,是一种有效的话题自动检测方法。
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前10条
1 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
2 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
3 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
4 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
5 罗成;李弼程;张先飞;;一种有效的网页噪声消除的方法[J];计算机工程;2007年08期
6 潘渊;李弼程;张先飞;;一种基于自适应重心向量的主题检测方法[J];计算机工程;2009年03期
7 刘迁;焦慧;贾惠波;;信息抽取技术的发展现状及构建方法的研究[J];计算机应用研究;2007年07期
8 秦兵,刘挺,李生;多文档自动文摘综述[J];中文信息学报;2005年06期
9 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
10 贺瑞芳;秦兵;刘挺;潘越群;李生;;基于依存分析和错误驱动的中文时间表达式识别[J];中文信息学报;2007年05期
中国硕士学位论文全文数据库 前2条
1 王昀;金融领域中汉语时间信息抽取的研究[D];清华大学;2004年
2 罗成;Web新闻话题检测与追踪技术研究[D];解放军信息工程大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 税仪冬;瞿有利;黄厚宽;;周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J];北京交通大学学报;2009年05期
2 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
3 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
4 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
5 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
6 袁鸿雁;;基于本体的HTML表格识别技术的研究[J];长春工程学院学报(自然科学版);2010年01期
7 鲁明羽;姚晓娜;魏善岭;;基于模糊聚类的网络论坛热点话题挖掘[J];大连海事大学学报;2008年04期
8 许志凯;徐志明;李栋;李生;;面向互联网新闻的话题检测与追踪[J];智能计算机与应用;2011年03期
9 赵江江;秦兵;;基于BootStrapping的中文事件元素抽取系统设计与实现[J];智能计算机与应用;2012年01期
10 霍娜;吕国英;;基于规则匹配的灾难性追踪事件信息抽取的研究[J];电脑开发与应用;2012年06期
中国重要会议论文全文数据库 前10条
1 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 彭楠赟;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
6 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
7 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
8 张晓菲;张火明;高明正;;三种智能优化算法的研究进展[A];中国仪器仪表学会第十一届青年学术会议论文集[C];2009年
9 邱立坤;陶然;龙志祎;程葳;;面向互联网的话题发现技术研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
10 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
2 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
3 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
4 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
5 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
6 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
7 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
8 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
9 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
10 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
2 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
3 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
4 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
5 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
6 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
7 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
8 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
9 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
10 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
2 孙全,叶秀清,顾伟康;一种新的基于证据理论的合成公式[J];电子学报;2000年08期
3 秦兵;刘挺;王洋;郑实福;李生;;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
4 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
5 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
6 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
7 徐小玲,彭京,石葆梅,方全心,张竞;一种基于边序列的任意两点间最短路径算法[J];计算机工程与应用;2005年29期
8 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期
9 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
10 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前3条
1 符冉迪;遥感图像变化检测和分类识别技术的研究[D];解放军信息工程大学;2001年
2 虞玲玲;基于文本分类的话题跟踪及其一元语法模型的应用[D];南京理工大学;2005年
3 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
【相似文献】
中国期刊全文数据库 前10条
1 曹来发;;中文电脑交流会、中文信息全国学术交流会在蓉召开[J];水利电力机械;1991年05期
2 孙宝传;中文信息处理技术如何再创辉煌[J];中国传媒科技;2001年10期
3 ;书讯[J];中文信息学报;2010年02期
4 ;在《中文信息》创刊十周年庆祝会上 四川联合大学龙伟副校长致开幕词[J];中文信息;1994年06期
5 ;推动中文信息现代化工程是炎黄子孙义不容辞的职责——基金会积极筹建 热心人士陆续捐赠[J];中文信息;1995年01期
6 ;读者天地[J];中文信息;1994年01期
7 廖坦,张平;信息港与中文信息环境[J];中文信息;1996年05期
8 许嘉璐;语言学研究与中文信息处理[J];中文信息;1997年03期
9 曲大成;周立峰;;怎样阅读Internet网上的中文信息[J];办公自动化;1997年01期
10 姚进;首都在线——全新本地中文信息网[J];网上出版;1998年02期
中国重要会议论文全文数据库 前10条
1 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
2 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
3 穆向禹;浦剑涛;张树武;徐波;;基于状态子空间聚类的多层MLLR自适应算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
5 杨广林;赵云峰;王书理;;Gabor滤波器及其在图像特征提取方面的优化算法[A];2005年中国智能自动化会议论文集[C];2005年
6 冯又层;蔡勖;;基于自组织特征映射的证券市场聚类[A];第二届全国复杂动态网络学术论坛论文集[C];2005年
7 张刚;刘悦;;基于查询空间的分布式文档集合划分算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 文健;李舟军;;基于聚类语言模型的生物文献检索技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 高阳;赵瑞娜;赵志强;阿杉;;基于自组织特征映射网络的全国地级市城市地价区域分类研究[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
10 刘哲;唐雁;陈强;;三维模型有意义分割技术现状及应用[A];2008年计算机应用技术交流会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 李力;广东云安建国内首个中文信息化城镇[N];经济日报;2004年
2 ;中文信息应用网络应运而生[N];网络世界;2001年
3 詹克山;清除IE地址栏中的中文信息[N];中国计算机报;2002年
4 记者 王兵;中国C网构建中文信息应用系统[N];人民邮电;2001年
5 记者 李琳;中国C网:誓做自主全中文信息网[N];厂长经理日报;2000年
6 罗敏;《中国C网中文信息应用网络系统》近日通过技术成果鉴定[N];中国高新技术产业导报;2001年
7 教育部语信司;第十一届全国民族语言文字信息学术研讨会召开[N];语言文字周报;2007年
8 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
9 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
10 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
中国博士学位论文全文数据库 前10条
1 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
2 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
3 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
4 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
5 蔡维玲;基于聚类的图像分割和分类器设计的研究[D];南京航空航天大学;2008年
6 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
7 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
8 雷景生;神经网络的分类、聚类功能及其规则抽取研究[D];新疆大学;2003年
9 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
10 张亮;推荐系统中协同过滤算法若干问题的研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年
2 刘冬雪;搜索引擎检索结果聚类系统的研究与实现[D];北京邮电大学;2011年
3 王斌;双层数据流聚类框架的设计与实现[D];吉林大学;2004年
4 郑国荣;基于电信CRM系统的客户消费模式研究[D];重庆大学;2005年
5 王清江;基于力学的聚类算法[D];大连理工大学;2006年
6 蔡博文;高维数据集中离群数据挖掘方法的研究[D];合肥工业大学;2006年
7 刘晓燕;基于聚类的入侵检测系统研究[D];青岛大学;2006年
8 张锦;关于一种混合式入侵检测系统的研究与设计[D];沈阳工业大学;2006年
9 于世东;多维数据可视化技术的研究及应用[D];沈阳工业大学;2006年
10 于洪;基于脑电信号的警觉度估计[D];上海交通大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026