期刊库|学位论文库|会议论文库|飞度BOOK|站内搜索注册|充值中心|购买知网卡|送卡上门|帮助中心|
全文文献: “飞度BOOK”首届期刊庙会开幕啦!
做个飞度客,万千杂志,想看就看!
《中国科学院研究生院(计算技术研究所)》 2005年
加入收藏 获取最新

语言浅层分析与句子级新信息检测研究

张华平  
【摘要】:针对粒度更小、冗余更少的信息需求,本文围绕句子级别的信息检索与新信息检测,进行了深入而又细致的研究,提出了有针对性的浅层语言分析技术,讨论了句子检索的主要建模方法,并阐述了信息新颖度的多种量化手段。在多组对比实验和国际上公开的评测比赛中,依据本文技术方法研制的Noovel系统取得了当前最好的性能,超过了所有正式公开的结果,这也表明:本文提出的句子检索方法与新信息检测技术是卓有成效的。 针对新信息检测的英文浅层语言分析主要包括断句、词汇切分、词性标注以及词形还原等自然语言处理过程。作者在已有研究工作的基础上,结合新信息发现的特点,提出了有针对性的改进措施。在中文浅层语言分析方面,本文提出了一种将汉语分词、词性标注、切分排歧和未登录词识别相结合的基于层次隐马模型的理论框架。在语言的分析基础上,查询分析过程通过辅助词过滤与倾向分类,从自然语言表述的主题中理解用户的查询意图,从而抽取出可用于直接建模计算的查询向量。在目前所有能获取的公开数据集合上进行对比实验,基于浅层语言分析的系统性能均超过了目前所见到发表的最好水平。 在句子检索方面,Noovel采取了三种模型:向量空间模型、概率检索模型与语言模型。为了克服句子的局限性,本文引入了查询扩展的技术,主要包括:借助于WordNet的语义衍生扩展、伪相关反馈扩展、采用高频共现词语的局部共现扩展。在TREC2003数据集上的实验表明:在浅层语言分析的基础上,简单向量空间模型可以达到目前最好的结果,受到语义资源和分析深度的限制,当前阶段的语义扩展作用有限,而伪相关反馈与局部共现扩展都能够帮助提高句子检索的性能,局部共现扩展是很有潜力的查询扩展与文档扩展的技术。 句子级别的新信息检测是本项研究的最终目标,这是个时序性很强的信息过滤任务,在总结现有方法的基础上,本文提出了三种具有代表性的信息新颖度的量化方法,其中包括:词重叠度及其扩展方法、相似度比较方法与信息增强的评价方法。初衷在于兼顾信息与主题的相关性,同时还要与已有历史的信息进行比对,寻找新信息之所在。 除了非监督条件的新信息检测之外,本文还探讨了在监督条件下如何进行机器自动学习并调整参数的策略,主要的手段包括:进一步的特征选择、真实反馈、调整参数、阈值设置。作者还进一步的提出了基于分类的句子检索与新信息检测方法。 Noovel系统参加了第13届TREC比赛新信息发现任务的全部四个子任务,在最关键的任务1中,Noovel的新信息检测结果排名第一;任务3的句子检索性能方面,提交的两个结果并列排名第一,其他的子任务也取得不俗的成绩,与参赛的其他13支国际研究团队进行综合比较,本文在新信息方面的研究相对较优。
【关键词】:句子检索 新信息检测 浅层语言分析 信息检索 信息过滤 查询分析 查询扩展 自然语言处理 汉语分词 词性标注 Noovel
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP391.1
【DOI】:CNKI:CDMD:1.2006.191421
【目录】:
  • 摘要3-5
  • Abstract5-7
  • 目录7-11
  • 图目录11-13
  • 表目录13-14
  • 第一章 引言14-27
  • 1.1 句子级新信息检测产生的背景14-19
  • 1.1.1 信息增长的现状与需求特点14-15
  • 1.1.2 文档级信息检索技术15-17
  • 1.1.3 自动问答系统17-18
  • 1.1.4 句子级新信息检测18-19
  • 1.2 Noovel系统的总体架构19-21
  • 1.2.1 已知信息19-21
  • 1.2.2 子任务21
  • 1.3 新信息检测的相关技术21-23
  • 1.3.1 信息检索21-22
  • 1.3.2 信息过滤22
  • 1.3.3 文本分类22
  • 1.3.4 自动文摘22
  • 1.3.5 自然语言理解22-23
  • 1.4 评测方法与测试平台23-25
  • 1.4.1 发展历程23-24
  • 1.4.2 评价方法24-25
  • 1.4.3 测试数据集25
  • 1.5 论文的组织结构25-27
  • 第二章 句子检索与新信息检测的主要算法模型27-37
  • 2.1 概述27-28
  • 2.2 句子检索方法综述28-32
  • 2.2.1 传统的文档检索方法28-29
  • 2.2.2 信息过滤方法29
  • 2.2.3 分类方法29-30
  • 2.2.4 语义比较方法30-31
  • 2.2.5 隐马模型(HMM)方法31-32
  • 2.2.6 自动文摘方法32
  • 2.3 新信息检测方法综述32-35
  • 2.3.1 词重叠度33
  • 2.3.2 最大区间相关度(Maximum Marginal Relevance)33
  • 2.3.3 Cosine冗余度33
  • 2.3.4 命名实体触发方法33-34
  • 2.3.5 统计机器翻译模型34-35
  • 2.3.6 LexRank方法35
  • 2.4 本章小结35-37
  • 第三章 Noovel特定的浅层语言分析37-66
  • 3.1 自然语言的特点与语言计算分析37-40
  • 3.1.1 自然语言的特点37-38
  • 3.1.2 自然语言的计算分析38-39
  • 3.1.3 自然语言分析的不同层次知识39-40
  • 3.2 新信息检测与浅层语言分析40-41
  • 3.3 英文浅层分析41-46
  • 3.3.1 英文断句(Sentence Boundary Detection)与词汇切分(Tokenization)41-43
  • 3.3.2 词性标注(Part-Of-Speech Tagging)43-45
  • 3.3.3 词干抽取(Stemming)与词形还原(Morphplogical Normalization)45-46
  • 3.4 停用词处理与特征选择46-49
  • 3.4.1 停用词处理47
  • 3.4.2 特征选择47-48
  • 3.4.3 浅层语言分析的中间结果48-49
  • 3.5 查询分析49-51
  • 3.6 汉语浅层分析与ICTCLAS51-64
  • 3.6.1 层次隐马模型和汉语浅层语言分析53-56
  • 3.6.2 基于类的隐马分词算法56-57
  • 3.6.3 N-最短路径的切分排歧策略57-59
  • 3.6.4 未登录词的隐马识别方法59-61
  • 3.6.5 实验与分析61-64
  • 3.7 本章小结64-66
  • 第四章 Noovel句子检索算法与分析66-85
  • 4.1 概述66
  • 4.2 向量空间模型及其扩展66-75
  • 4.2.1 向量空间模型基本思想67
  • 4.2.2 向量空间表示法67-68
  • 4.2.3 查询相关性计算68
  • 4.2.4 特征权重估计与规格化68-70
  • 4.2.5 句子检索的查询扩展70-75
  • 4.3 概率检索模型75-76
  • 4.4 语言模型检索(Language Modeling IR)76-78
  • 4.4.1 语言模型的基本思想76-78
  • 4.4.2 句子级语言模型的改进78
  • 4.5 句子检索实验与分析78-83
  • 4.5.1 浅层语言分析的贡献度实验78-80
  • 4.5.2 三种句子检索模型的基准实验80-82
  • 4.5.3 查询扩展实验82-83
  • 4.6 本章小结83-85
  • 第五章 Noovel新信息检测技术85-93
  • 5.1 概述85
  • 5.2 词重叠度及其扩展(Word Overlapping)85-87
  • 5.2.1 基于词重叠度的句子新颖度计算85-86
  • 5.2.2 带权重的词重叠度计算86-87
  • 5.3 相似度比较方法(Similarity Margin)87
  • 5.4 信息增强评价方法(Information Increment)87-88
  • 5.5 其他方法88-91
  • 5.5.1 语言模型(Language Model)88-89
  • 5.5.2 句子语义距离计算方法(Sentence Semantic Distance)89-91
  • 5.6 新信息检测试验与分析91-92
  • 5.6 本章小结92-93
  • 第六章 监督学习条件下的句子检索与新信息检测93-100
  • 6.1 概述93-94
  • 6.2 监督学习环境下的参数调整与阈值设置94-96
  • 6.3 基于分类的句子检索与新信息检测方法96-98
  • 6.4 实验与分析98-99
  • 6.4.1 监督实验一98
  • 6.4.2 监督实验二98-99
  • 6.5 本章小结99-100
  • 第七章 Noovel系统在TREC2004新信息检测任务中的公开评测100-108
  • 7.1 概述100-101
  • 7.2 任务1测试结果与对比101-103
  • 7.3 任务2测试结果与对比103-104
  • 7.4 任务3测试结果与对比104-105
  • 7.5 任务4测试结果与对比105-106
  • 7.6 本章小结106-108
  • 第八章 结束语108-113
  • 8.1 本文主要贡献与创新108-109
  • 8.2 下一步研究方向109-110
  • 8.3 前景与展望110-113
  • 8.3.1 可排重、更精细的信息检索与过滤平台110-111
  • 8.3.2 可订制的新闻摘要(Customized News Abstraction;CNA)111
  • 8.3.3 新信息检测辅助阅读器(Noovel Aided Reader;NAR)111-113
  • 附录1.TREC 2004 Novelty Track Guidelines113-118
  • Summary113
  • Goal113-114
  • Tasks114
  • Topics and Documents114-115
  • Task and training data restrictions115
  • Format of results115-116
  • Evaluation116-117
  • Definition for new and relevant117-118
  • 附录2.Penn Treebank Tagset118-119
  • 参考文献119-129
  • 致谢129-131
  • 作者简历131-133
全文下载: CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【引证文献】
中国重要会议论文全文数据库 前1条
1 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
【参考文献】
中国期刊全文数据库 前2条
1 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
2 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 余正涛,樊孝忠,宋丽荣;基于特定问题类别的汉语问答系统查询扩展[J];北京理工大学学报;2005年10期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 林鸿飞;丁洪文;杨志豪;赵晶;;基于概念和统计的问答系统实现机制[J];大连理工大学学报;2006年02期
5 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
6 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
7 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期
8 余正涛,樊孝忠,郭剑毅;基于支持向量机的汉语问句分类[J];华南理工大学学报(自然科学版);2005年09期
9 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
10 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
中国重要会议论文全文数据库 前10条
1 赵燕平;许榕生;;基于Web的智能电子商务信息咨询系统[A];第11届全国计算机在现代科学技术领域应用学术会议论文集[C];2003年
2 刘艳芳;封化民;丁天昌;;中文视频问答系统研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
3 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
4 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 钱揖丽;张虎;;汉语分词及词性标注自动校验方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
8 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
9 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 Chunyu Kit;;An Example-based Study on Chinese Word Segmentation Using Critical Fragments[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
中国博士学位论文全文数据库 前10条
1 周竹荣;基于语义的教学网格门户研究[D];西南大学;2008年
2 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
5 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
6 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
7 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
8 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
9 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
10 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
中国硕士学位论文全文数据库 前10条
1 覃张华;短文本语义过滤技术的研究[D];北方工业大学;2008年
2 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
3 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
4 黄艳;面向数字化产品的自然语言查询技术的研究与开发[D];浙江大学;2002年
5 缪晓阳;WebCM:一种基于搜索引擎的网络内容监控系统的研究[D];浙江大学;2002年
6 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
7 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
8 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
9 李珊;远程教学中自动答疑系统的研究[D];河海大学;2004年
10 张占英;关于数据库汉语查询语句中查询信息的研究[D];河南大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 林鸿飞;基于示例的文本标题分类机制[J];计算机研究与发展;2001年09期
2 谭义红,林亚平;向量空间模型中完全加权关联规则的挖掘[J];计算机工程与应用;2003年13期
3 袁占亭,张爱民,张秋余;基于概念的Web信息检索[J];计算机工程与应用;2003年36期
4 熊文新;宋柔;;信息检索自然语言查询问句处理框架[J];计算机科学;2006年10期
5 杨俊柯;杨贯中;杨建学;;基于语义模型的信息检索机制研究[J];计算机工程;2006年12期
6 袁方;周志勇;宋鑫;;初始聚类中心优化的k-means算法[J];计算机工程;2007年03期
7 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期
8 王进,陈恩红,张振亚,王煦法;基于本体的跨语言信息检索模型[J];中文信息学报;2004年03期
9 王立柱;赵大宇;;BP神经网络的改进及应用[J];沈阳师范大学学报(自然科学版);2007年01期
10 杨学兵;张俊;;决策树算法及其核心技术[J];计算机技术与发展;2007年01期
中国硕士学位论文全文数据库 前1条
1 杨哲;提高信息检索性能的有效机制与算法研究[D];中国科学院研究生院(计算技术研究所);2004年
【二级引证文献】
中国重要会议论文全文数据库 前1条
1 陈志玮;肖诗斌;施水才;王昕;;一种基于HTML位置信息的查询扩展技术[A];第三届学生计算语言学研讨会论文集[C];2006年
【二级参考文献】
中国期刊全文数据库 前5条
1 张民,李生,赵铁军;基于评价的汉语词性纯概率标注算法[J];计算机研究与发展;1998年04期
2 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
3 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
4 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
5 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
中国重要会议论文全文数据库 前1条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前1条
1 吴友政;赵军;徐波;;基于主题语言模型的句子检索算法[J];计算机研究与发展;2007年02期
中国博士学位论文全文数据库 前1条
1 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前1条
1 常毅;开放领域的问答系统研究[D];中国科学院研究生院(计算技术研究所);2004年
关于知网|版权声明|学术会议服务|广告服务|在线咨询
京ICP证040431号互联网出版许可证新出网证(京)字008号北京市公安局海淀分局备案号:110 1081725
订购咨询热线:800-810-6613、010-62985026免费送卡上门
主办:清华大学
数字出版:中国学术期刊电子杂志社
在线发行:同方知网(北京)技术有限公司
关 闭
关 闭
关 闭