收藏本站
《中国科学院研究生院(计算技术研究所)》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

面向人物追踪的知识挖掘研究

于满泉  
【摘要】:近年来,关于文本信息处理的诸如检索、分类、聚类、抽取等技术有了很大的发展,目前的研究偏重于综合利用各种手段来更好地满足新的应用场景,一系列国际评测也推动了各项技术的发展。尽管在移动通信领域,跟踪人物行踪的技术已相对成熟;然而,在自由文本空间内,如何根据人物的报道自动整理出相关人物的信息并没有引起研究者的广泛注意,其过程和方法也没有统一的结论。 为此,本文提出了“人物追踪”的概念,首先对“人物追踪”进行了概括性的介绍,论述了“人物”和“人物追踪”的内涵和外延,提出了“人物模型”的文本表示方法,并对其进行了形式化的定义。随后,给出了人物追踪要解决的主要问题,相关的技术基础,处理文档资料的系统流程以及人物追踪在学术上和应用上的意义。 在对人物追踪涉及到的主要技术进行了理论和方法上的综述后,本文结合人物追踪的系统流程,介绍了人物追踪数据预处理的方法。处理的文档主要是汉语的新闻网页。重点研究了网页解析和人物属性抽取的方法。通过数据预处理,把文本内容转化成人物模型的信息片断。 接下来,本文研究了人物模型的同一性判断方法和数据融合方法。主要是处理人物模型片断的信息,不仅要把不同人物的信息区分开,还要把同一人物的信息进行整合,形成相对完整的人物生平履历。本文在这部分重点介绍了人物模型的特征表示和相似度计算方法。 在人物模型同一性判断基础上,针对同一人物的活动报道,本文研究了人物活动事件的组织方法。事件的组织分为“微观粒度的事件组织”和“宏观粒度的事件组织”。本文对宏观粒度事件组织进行了重点的研究,按照国际上标准的TDT系列评测的要求,以文档或段落为基本的处理单位,不涉及具体的事件角色框架来对事件报道进行组织。本文不仅研究了宏观粒度事件的识别技术,还研究了事件之间层次关系的组织方法。 随后,本文探讨了人物追踪若干细粒度挖掘任务的处理方法,并以“流通度理论”和“动态流通语料库理论”为基础,重点研究了人物知名度的计算方法。通过跟踪人物不同时期的知名度变化,绘制出人物知名度变化的曲线图。 通过结合人物追踪的理论和技术研究,本文最后给出了人物信息搜索引擎的设计方案。不仅设计了体系结构,还给出了人物搜索引擎的索引结构和搜索结果显示界面。 本文的研究成果为自由文本空间内人物信息的大规模组织奠定了坚实的基础,所提出的“人物追踪”概念为文本挖掘领域提供了一个崭新的研究视角和方向,对于抽象对象的挖掘具有重要的启发意义和实用价值。
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP311.13

【引证文献】
中国重要会议论文全文数据库 前2条
1 刘悦;许洪波;程学旗;;互联网挖掘和搜索的研究进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 孟新萍;王会珍;张俐;;维基百科人物属性自动获取方法研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前1条
1 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前6条
1 马二磊;互联网人物信息排歧技术研究[D];哈尔滨工业大学;2010年
2 沈剑平;面向网络人物搜索的中文人名消歧[D];哈尔滨工业大学;2010年
3 林伟贇;基于海量网页的同类命名实体共现统计规律的研究[D];北京工业大学;2011年
4 余善红;基于社会网络的个性化推荐系统关键技术研究[D];国防科学技术大学;2011年
5 邹永强;新闻网页中人物实体关系提取技术研究[D];国防科学技术大学;2011年
6 杜一鸣;社会关系网络构建方法研究[D];河北农业大学;2010年
【参考文献】
中国期刊全文数据库 前2条
1 周强,孙茂松,黄昌宁;汉语最长名词短语的自动识别[J];软件学报;2000年02期
2 张 威,周昌乐;汉语语篇理解中元指代消解初步[J];软件学报;2002年04期
中国博士学位论文全文数据库 前1条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 冯鸣;英语表持续时段的for短语和汉语时量词语的比较[J];安徽广播电视大学学报;2001年02期
2 姜红;;试论当代中国的社会流行语[J];安徽农业大学学报(社会科学版);2005年06期
3 郇正军;赵国富;;基于土地利用的空间数据挖掘系统的设计与实现[J];安徽农业科学;2011年07期
4 陈瑜;吴澜;;从认知语言学角度看英汉时间隐喻空间化[J];安徽文学(下半月);2008年01期
5 康伟;;毕业(设计)论文题目审核及选题管理系统[J];辽宁科技大学学报;2009年03期
6 耿楠;;“时候”的多角度分析[J];安阳师范学院学报;2006年06期
7 赵红丹;王希杰;;基于隐马尔科夫模型的词性标注[J];安阳师范学院学报;2010年05期
8 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
9 贾朝勃;;“ぃま”的重新释义及其与中文方言的联系[J];北京交通大学学报(社会科学版);2011年02期
10 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
中国重要会议论文全文数据库 前10条
1 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
2 杨晓霞;朱庆;李海峰;;知识导航的遥感信息处理服务分类选择方法[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
3 徐文堪;;信息革命时代的语言理论和词典编纂[A];中国辞书论集2000[C];2000年
4 隋岩;张普;;基于动态流通语料库的“动态词典”编纂[A];中国辞书论集2000[C];2000年
5 林达真;李绍滋;;基于模式分类的汉语时态确定方法研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
6 王治敏;俞士汶;;人称代词和名词的歧义消解研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
8 史中琦;张普;;基于DCC动态流通语料库的流行语类型分析[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
9 张辉;李国辉;陈俊;;一种基于新闻要素建模的新事件探测方法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
10 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
2 李晋江;海量数据点三维重构中一类关键问题研究[D];山东大学;2010年
3 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
4 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
5 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
6 王欣;汉日否定表达对比研究[D];吉林大学;2011年
7 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
8 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
9 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
10 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
中国硕士学位论文全文数据库 前10条
1 陶胜妃;现代汉语谓词修饰词前后位置比较研究[D];上海外国语大学;2010年
2 孙丽萍;流形学习算法ISOMAP的改进与实现[D];大连理工大学;2010年
3 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
4 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
5 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
6 韩晓旭;《史记》时间词语研究[D];辽宁师范大学;2010年
7 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年
8 李贤;混合属性聚类算法研究[D];长沙理工大学;2010年
9 陈凤萍;寿光人才求职招聘网站中资源检索算法的研究[D];中国海洋大学;2010年
10 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
3 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
4 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
5 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
6 解(亻刍);汪小帆;;复杂网络中的社团结构分析算法研究综述[J];复杂系统与复杂性科学;2005年03期
7 邓宇琼;网络犯罪证据的提取和固定[J];中国人民公安大学学报;2003年03期
8 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
9 霍林;王力;黄俊文;潘英花;;一种结合同义词典和词对共现距离的查询扩展方法[J];广西大学学报(自然科学版);2010年02期
10 邸楠;姚从磊;李晓明;;基于中文Web社会网络的提取、测量与分析[J];广西师范大学学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前1条
1 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 程学旗;信息网络拓扑结构与内容相关性研究[D];中国科学院研究生院(计算技术研究所);2006年
2 孔芳;指代消解关键问题研究[D];苏州大学;2009年
3 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
中国硕士学位论文全文数据库 前10条
1 徐秀星;Web数据集成中全局模式构建方法研究[D];山东大学;2011年
2 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年
3 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年
4 王颖;应用于中文人名搜索引擎的Web信息提取技术研究[D];兰州大学;2006年
5 陈君;基于Web社会网络的协作过滤模型研究[D];西南大学;2006年
6 熊德兰;中文网页褒贬倾向性分类研究[D];郑州大学;2006年
7 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
8 宋爽;共现分析在文本知识挖掘中的应用研究[D];南京理工大学;2006年
9 乔永波;规则与统计相结合的中文命名实体识别[D];山东大学;2007年
10 杨静;基于SVM的中文电子邮件作者性别识别技术研究[D];河北农业大学;2007年
【二级引证文献】
中国期刊全文数据库 前1条
1 张丹;何跃;;基于聚类分析的SNS网络研究[J];情报杂志;2012年05期
中国硕士学位论文全文数据库 前2条
1 刘小利;社会关系网络的关系构建方法研究[D];河北农业大学;2012年
2 曹春红;基于社会网络分析的企业竞争情报人际网络研究[D];山西财经大学;2010年
【二级参考文献】
中国期刊全文数据库 前3条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 邢红兵;信息领域汉英术语的特征及其在语料中的分布规律[J];术语标准化与信息技术;2000年03期
3 全如瑊;术语的理论与实践 第一部分 引言[J];术语标准化与信息技术;2001年01期
中国重要会议论文全文数据库 前5条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 马红妹;王挺;陈火旺;;汉英机器翻译中语境知识的表示与应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 刘桐菊;于浩;杨沐昀;;基于TFIDF的专业领域词汇获取的研究[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前1条
1 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
中国硕士学位论文全文数据库 前1条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 刘志勇,袁清珂;基于粗集理论的知识挖掘及其在工程中的应用研究[J];机电工程技术;2005年06期
2 张瑞玲;从知识创造螺旋机理模型论知识挖掘技术[J];现代情报;2005年10期
3 ;会员评论[J];中国计算机用户;2009年15期
4 邱均平;周倩雯;;数据挖掘与知识挖掘的比较研究[J];情报科学;2010年12期
5 范丽影;;图书馆员隐性知识挖掘研究[J];重庆图情研究;2009年01期
6 马颂德,王珏;智能信息处理与知识挖掘[J];世界科技研究与发展;1999年06期
7 陈刚;基于模糊推理的管理数据库的知识挖掘[J];辽宁工程技术大学学报;2003年03期
8 金应渊;基于知识挖掘技术的模糊信息聚类及联想设计[J];情报杂志;2004年03期
9 郑伟;吉根云;;多媒体数据挖掘技术研究[J];电脑知识与技术(学术交流);2006年20期
10 戴泳;;知识发现与知识挖掘技术及其应用[J];科技情报开发与经济;2007年26期
中国重要会议论文全文数据库 前10条
1 陈栋;徐洁磐;;Knight知识挖掘系统的设计与实现[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
2 徐新萍;来欣;王晓民;胡文华;彭瑞云;王德文;;信息可视化的发展现状与研究热点[A];第十一届中国体视学与图像分析学术会议论文集[C];2006年
3 冯艺东;汪国平;董士海;;信息可视化[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
4 王宝济;;面向21世纪的农业工程情报研究[A];中国农业工程学会第七次会员代表大会论文集[C];2004年
5 林鸿飞;杨志豪;柴永春;;从生物医学文献中进行知识挖掘[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
6 余明;陈小瑜;;基于DEM的地形数据挖掘方法及应用研究[A];中国地理学会2006年学术年会论文摘要集[C];2006年
7 董威;唐延东;;基于粗糙集和多Agent系统的知识挖掘[A];第七届全国信息获取与处理学术会议论文集[C];2009年
8 蒋伟进;林小红;;医疗诊断知识挖掘的区间合并与RS混合方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 张素兰;张继福;;融合粗集和概念格理论的分类知识挖掘模型研究[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
10 缑锦;吴扬扬;罗伟;蒋云良;;一种基于语义规则的知识融合方法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 吴勇毅 郭友清;未来OA的七大演变[N];计算机世界;2007年
2 陈友梅;建一个内容仓库[N];中国计算机报;2004年
3 陈磊;千家图书馆对接“中国知网”数字出版新平台[N];科技日报;2007年
4 王沛霖;国家计生委与神州数码签约PADIS[N];中国计算机报;2007年
5 本报记者 侯闯;Brio 8让企业做出聪明的决策[N];计算机世界;2003年
6 张雪琳;赶赴OSS盛宴[N];通信产业报;2003年
7 福建教育学院教育系教授 张祥明;挖掘与共享校长的隐性知识[N];中国教育报;2007年
8 中国中医科学院 曹洪欣;倡导自主创新推进中医药事业发展[N];中国中医药报;2008年
9 ;LKS打造知识型新联想[N];中国计算机报;2004年
10 记者 程晓龙;9种学术电子期刊集中亮相[N];中国新闻出版报;2003年
中国博士学位论文全文数据库 前10条
1 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
2 徐焕良;企业知识资源计划及其关键技术研究[D];南京航空航天大学;2003年
3 唐一之;基于知识本体的网络消费行为理论与方法研究[D];北京交通大学;2009年
4 郭迎春;知识型电力客户关系管理研究[D];华北电力大学(河北);2008年
5 任鸿;基于异构网络的知识挖掘与服务关键技术研究[D];北京邮电大学;2010年
6 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
7 魏娟;基于粗糙集的知识发现及在CRM中的应用研究[D];哈尔滨工程大学;2006年
8 郝秀梅;粗信息矩阵的数量特征及其应用[D];山东大学;2009年
9 杨志强;开放式创新模式研究[D];南开大学;2009年
10 王建德;IHSMTS中面向对象智能型实例模式库的设计与实现[D];中国科学院研究生院(计算技术研究所);2001年
中国硕士学位论文全文数据库 前10条
1 范勇;Web信息的知识挖掘研究[D];武汉大学;2004年
2 李宁;用知识挖掘技术实现网络信息的学科知识分类与智能查询[D];四川大学;2003年
3 来玲;大学图书馆知识流程及知识挖掘流程研究[D];天津师范大学;2004年
4 潘营营;基于知识挖掘的海洋药物研发知识升华研究[D];中国海洋大学;2010年
5 刘志勇;高亮度LED芯片制造工艺知识挖掘技术的研究与应用[D];广东工业大学;2005年
6 李志;基于数据集成中本体自动构建的研究[D];中南大学;2005年
7 刘琳;基于知识挖掘的现代企业客户关系管理应用研究[D];东北师范大学;2006年
8 矫野松;转型企业技术能力提高机理和整合模式研究[D];大连理工大学;2006年
9 樊斌;虚拟企业知识管理支持系统研究[D];哈尔滨理工大学;2005年
10 刘捷;基于案例的企业隐性知识挖掘研究[D];湖南大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026