收藏本站
《哈尔滨工业大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

人物言论抽取与跟踪技术研究

陈小陆  
【摘要】:面对互联网信息量的不断扩张,用户迫切地需要自动化的信息获取工具来帮助在海量的信息源中迅速找到和获得真正所需的信息。本文围绕人物言论的抽取与跟踪这一课题展开研究,探讨如何根据用户所感兴趣的某一话题,或者和用户所感兴趣的某一人物言论相关的话题,跟踪到一系列人(人物,团体或机构)所发表的关于此话题的言论,并对其进行识别和抽取。本文从言论的自动识别与抽取,和相关言论的话题跟踪两个关键环节进行深入研究。 本文将新闻报道中每次出现的人物言论,看作是一个特殊的事件类型,即言论事件。对于言论事件的识别问题,本研究建立了一个规模适当的针对言论事件的语料库资源,采用机器学习的方法对候选言论进行判别。本文从上下文信息、事件核心元素以及元素间依赖等几个方面给出描述言论事件的特征。并通过对比实验的结果,分析了训练语料的规模和特征的选择对基于最大熵模型的分类方法性能的显著影响。最后,本文采用半自动构建的优化的触发词集,当训练语料的规模达到350篇新闻报道,总计716个正例,160个反例时,系统的F值得到了87.8%的最好结果。 在跟踪设计中本文采用了基于查询向量的跟踪设计,分析了不同的相似度计算方法和相应的阈值调整对于系统的漏报率、误报率以及整体归一化开销的影响。并通过对比实验分析,在使用Weighted Sum相似度计算方法的情况下,采用最优的查询扩展策略并进行阈值调整,系统归一化开销得到了0.3908的最好结果。
【关键词】:事件抽取 言论抽取 话题跟踪 最大熵模型
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 第1章 绪论8-20
  • 1.1 课题研究的背景和意义8-9
  • 1.2 事件抽取的研究现状与分析9-13
  • 1.2.1 会议驱动9-10
  • 1.2.2 基于模式匹配的事件抽取10-12
  • 1.2.3 基于机器学习的事件抽取12-13
  • 1.3 话题跟踪的研究现状与分析13-18
  • 1.3.1 话题和报道的表示模型14-15
  • 1.3.2 相似度的计算方法15-16
  • 1.3.3 话题跟踪算法16-18
  • 1.4 本文的主要研究内容和组织结构18-20
  • 第2章 言论的自动识别与抽取20-37
  • 2.1 语料库资源20-26
  • 2.1.1 ACE 的语料资源20-24
  • 2.1.2 言论事件语料资源的建立24-26
  • 2.2 建立候选言论事件集26-28
  • 2.3 言论事件的二元判别28-31
  • 2.3.1 基于最大熵模型的二元分类28-30
  • 2.3.2 言论事件特征的选择30-31
  • 2.4 言论事件的抽取31-33
  • 2.5 试验结果与分析33-36
  • 2.5.1 评价方法33
  • 2.5.2 语料库规模与特征的贡献度33-35
  • 2.5.3 特征参数的选择35-36
  • 2.6 本章小结36-37
  • 第3章 相关言论的跟踪37-44
  • 3.1 话题和报道的VSM 表示37-38
  • 3.2 权重的计算38
  • 3.3 相似度计算38-39
  • 3.4 基于查询向量的跟踪设计39-41
  • 3.5 实验结果与分析41-43
  • 3.5.1 评测方法41-42
  • 3.5.2 相似度算法的选择与阈值42-43
  • 3.5.3 查询扩展策略43
  • 3.6 本章小结43-44
  • 第4章 人物言论抽取与跟踪系统的设计与实现44-51
  • 4.1 系统的结构设计44-46
  • 4.2 系统的实现及运行成果46-49
  • 4.3 系统性能分析49-51
  • 结论51-53
  • 参考文献53-58
  • 致谢58

【参考文献】
中国期刊全文数据库 前4条
1 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
2 万小军,杨建武;在线新闻主题检测系统的设计与应用[J];华南理工大学学报(自然科学版);2004年S1期
3 赵妍妍;秦兵;车万翔;刘挺;;中文事件抽取技术研究[J];中文信息学报;2008年01期
4 赵琦;刘建华;冯浩然;;从ACE会议看信息抽取技术的发展趋势[J];现代图书情报技术;2008年03期
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
【共引文献】
中国期刊全文数据库 前10条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
2 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
3 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
4 张仰森;郭江;;四种统计词义消歧模型的分析与比较[J];北京信息科技大学学报(自然科学版);2011年02期
5 雷雪梅;王大亮;田中贵秋;曾广平;;基于深层特征抽取的日文词义消歧系统[J];北京科技大学学报;2010年02期
6 吴云芳;;词义消歧研究:资源、方法与评测[J];当代语言学;2009年02期
7 刘远超;王晓龙;徐志明;刘秉权;;基于粗集理论的中文关键词短语构成规则挖掘[J];电子学报;2007年02期
8 范冬梅;卢志茂;张汝波;潘树燊;;基于信息增益改进贝叶斯模型的汉语词义消歧[J];电子与信息学报;2008年12期
9 陈学昌;韩佳珍;魏桂英;;话题识别与跟踪技术发展研究[J];中国管理信息化;2011年09期
10 陈志雄;;基于加窗策略聚类算法的主题追踪系统[J];广西轻工业;2008年02期
中国重要会议论文全文数据库 前7条
1 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王菁华;刘建毅;王枞;;语义网络结构下的词义消歧[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
4 张维民;范永刚;;基于CNML的新闻数据库数据挖掘体系初探[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(上篇)[C];2009年
5 李燕军;路斌;杨建武;;话题检测与追踪技术及其信息安全中的应用[A];全国计算机安全学术交流会论文集(第二十二卷)[C];2007年
6 赵妍妍;秦兵;车万翔;刘挺;;中文事件抽取技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 赫兰光;王轩;李露;范士喜;;基于最大熵分类器的谓词识别与词义消歧[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
2 赵威;电网数据中心的数据安全问题研究[D];燕山大学;2011年
3 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
4 单建芳;面向事件的文本表示研究[D];上海大学;2012年
5 王菁华;文本中知识的获取[D];北京邮电大学;2008年
6 孙广路;基于统计学习的中文组块分析技术研究[D];哈尔滨工业大学;2008年
7 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
8 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
9 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
10 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
中国硕士学位论文全文数据库 前10条
1 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 邓宾;中文词义消岐研究[D];昆明理工大学;2009年
4 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
5 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年
6 朱姗;基于本体的电子产品实体关系抽取研究[D];西安电子科技大学;2011年
7 李海光;基于位置和语义特征的中文命名实体关系抽取研究[D];合肥工业大学;2011年
8 徐赟;基于知网和贝叶斯模型的词义消岐技术的研究[D];南京理工大学;2010年
9 钱浩;Web信息抽取技术的研究与应用[D];东北石油大学;2011年
10 袁应成;基于用法属性的现代汉语介词短语边界识别研究[D];郑州大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 荀恩东,李生,赵铁军;基于汉语二元同现的统计词义消歧方法研究[J];高技术通讯;1998年10期
2 陈清才,王晓龙;一种基于词矢量的汉语语义量化模型[J];计算机研究与发展;2001年02期
3 杨尔弘,张国清,张永奎;基于义原同现频率的汉语词义排歧方法[J];计算机研究与发展;2001年07期
4 王亚东,郭茂祖,钱国良;一种基于信息增益与费用评价函数的特征选择准则[J];计算机研究与发展;1999年07期
5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
6 宋余庆,罗永刚,孙志挥;应用主分量分析与粗糙集处理的特征提取[J];计算机工程与应用;2004年22期
7 陈彬,洪家荣,王亚东;最优特征子集选择问题[J];计算机学报;1997年02期
8 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
9 陈兰,左志宏,熊毅,孟令谦;一种新的基于Ontology的信息抽取方法[J];计算机应用研究;2004年08期
10 李涓子,黄昌宁;基于转换的无指导词义标注方法[J];清华大学学报(自然科学版);1999年07期
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
【相似文献】
中国期刊全文数据库 前10条
1 贾宁;张全;;基于最大熵模型的中文姓名识别[J];计算机工程;2007年09期
2 潘炜;沈超;;面向层次分类标签的词性标注系统[J];计算机工程;2009年21期
3 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
4 牛晓妍;;基于最大熵的汉语人名识别方法研究[J];福建电脑;2008年04期
5 潘小燕;孙承杰;刘远超;王晓龙;;半结构化文本中的表格识别技术研究[J];微计算机信息;2008年18期
6 李响;才藏太;姜文斌;吕雅娟;刘群;;最大熵和规则相结合的藏文句子边界识别方法[J];中文信息学报;2011年04期
7 陈笑蓉;秦进;;基于最大熵原理的汉语词义消歧[J];计算机科学;2005年05期
8 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
9 曹波;苏一丹;邓琦;;基于最大熵模型的中国人名自动识别[J];计算机工程与应用;2009年04期
10 张立岩;吕玲;王井阳;;基于最大熵算法的全文检索研究[J];河北科技大学学报;2009年02期
中国重要会议论文全文数据库 前10条
1 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 朱江涛;赵丽奎;蔡东风;;基于最大熵模型的中文姓名识别方法初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 冯娟娟;李晗静;李生;;基于句法分析的中文语义角色标注实现[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
5 辛霄;范士喜;王轩;王晓龙;;基于最大熵的依存句法分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 刘方舟;施勤;陶建华;;基于最大熵模型的多音字消歧[A];第九届全国人机语音通讯学术会议论文集[C];2007年
7 于江德;王希杰;余正涛;;基于最大熵模型的语义角色标注[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 李军辉;周国栋;朱巧明;钱培德;;基于层次模型的中文句法分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 谢永康;周雅倩;黄萱菁;;一种基于谱聚类的共指消解方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
2 陶山山;多维最大熵模型及其在海岸和海洋工程中的应用研究[D];中国海洋大学;2013年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 秦莉娟;基于内容的自动视频监控研究[D];浙江大学;2006年
5 何奇瑾;我国玉米种植分布与气候关系研究[D];中国气象科学研究院;2012年
6 何奇瑾;我国玉米种植分布与气候关系研究[D];南京信息工程大学;2012年
7 刘文陆;基于激光热凝固效应的眼角膜屈光矫正原理及预测技术研究[D];武汉理工大学;2009年
8 段居琦;我国水稻种植分布及其对气候变化的响应[D];中国气象科学研究院;2012年
9 段居琦;我国水稻种植分布及其对气候变化的响应[D];南京信息工程大学;2012年
10 李茹;汉语句子框架语义结构分析技术研究[D];山西大学;2012年
中国硕士学位论文全文数据库 前10条
1 梅灿华;基于最大熵模型的迁移学习算法研究[D];合肥工业大学;2011年
2 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
3 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
4 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
5 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
6 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
7 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
8 彭其伟;基于统计方法的中文文本情感倾向分类研究[D];山西大学;2007年
9 杨军玲;汉语动词词语搭配自动获取方法研究[D];山西大学;2006年
10 杨振磊;基于最大熵模型的智能提问系统研究[D];天津大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026