语言浅层分析与句子级新信息检测研究
【摘要】:针对粒度更小、冗余更少的信息需求,本文围绕句子级别的信息检索与新信息检测,进行了深入而又细致的研究,提出了有针对性的浅层语言分析技术,讨论了句子检索的主要建模方法,并阐述了信息新颖度的多种量化手段。在多组对比实验和国际上公开的评测比赛中,依据本文技术方法研制的Noovel系统取得了当前最好的性能,超过了所有正式公开的结果,这也表明:本文提出的句子检索方法与新信息检测技术是卓有成效的。
针对新信息检测的英文浅层语言分析主要包括断句、词汇切分、词性标注以及词形还原等自然语言处理过程。作者在已有研究工作的基础上,结合新信息发现的特点,提出了有针对性的改进措施。在中文浅层语言分析方面,本文提出了一种将汉语分词、词性标注、切分排歧和未登录词识别相结合的基于层次隐马模型的理论框架。在语言的分析基础上,查询分析过程通过辅助词过滤与倾向分类,从自然语言表述的主题中理解用户的查询意图,从而抽取出可用于直接建模计算的查询向量。在目前所有能获取的公开数据集合上进行对比实验,基于浅层语言分析的系统性能均超过了目前所见到发表的最好水平。
在句子检索方面,Noovel采取了三种模型:向量空间模型、概率检索模型与语言模型。为了克服句子的局限性,本文引入了查询扩展的技术,主要包括:借助于WordNet的语义衍生扩展、伪相关反馈扩展、采用高频共现词语的局部共现扩展。在TREC2003数据集上的实验表明:在浅层语言分析的基础上,简单向量空间模型可以达到目前最好的结果,受到语义资源和分析深度的限制,当前阶段的语义扩展作用有限,而伪相关反馈与局部共现扩展都能够帮助提高句子检索的性能,局部共现扩展是很有潜力的查询扩展与文档扩展的技术。
句子级别的新信息检测是本项研究的最终目标,这是个时序性很强的信息过滤任务,在总结现有方法的基础上,本文提出了三种具有代表性的信息新颖度的量化方法,其中包括:词重叠度及其扩展方法、相似度比较方法与信息增强的评价方法。初衷在于兼顾信息与主题的相关性,同时还要与已有历史的信息进行比对,寻找新信息之所在。
除了非监督条件的新信息检测之外,本文还探讨了在监督条件下如何进行机器自动学习并调整参数的策略,主要的手段包括:进一步的特征选择、真实反馈、调整参数、阈值设置。作者还进一步的提出了基于分类的句子检索与新信息检测方法。
Noovel系统参加了第13届TREC比赛新信息发现任务的全部四个子任务,在最关键的任务1中,Noovel的新信息检测结果排名第一;任务3的句子检索性能方面,提交的两个结果并列排名第一,其他的子任务也取得不俗的成绩,与参赛的其他13支国际研究团队进行综合比较,本文在新信息方面的研究相对较优。
【关键词】:句子检索 新信息检测 浅层语言分析 信息检索 信息过滤 查询分析 查询扩展 自然语言处理 汉语分词 词性标注 Noovel
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP391.1
【DOI】:CNKI:CDMD:1.2006.191421
【目录】:
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP391.1
【DOI】:CNKI:CDMD:1.2006.191421
【目录】:
- 摘要3-5
- Abstract5-7
- 目录7-11
- 图目录11-13
- 表目录13-14
- 第一章 引言14-27
- 1.1 句子级新信息检测产生的背景14-19
- 1.1.1 信息增长的现状与需求特点14-15
- 1.1.2 文档级信息检索技术15-17
- 1.1.3 自动问答系统17-18
- 1.1.4 句子级新信息检测18-19
- 1.2 Noovel系统的总体架构19-21
- 1.2.1 已知信息19-21
- 1.2.2 子任务21
- 1.3 新信息检测的相关技术21-23
- 1.3.1 信息检索21-22
- 1.3.2 信息过滤22
- 1.3.3 文本分类22
- 1.3.4 自动文摘22
- 1.3.5 自然语言理解22-23
- 1.4 评测方法与测试平台23-25
- 1.4.1 发展历程23-24
- 1.4.2 评价方法24-25
- 1.4.3 测试数据集25
- 1.5 论文的组织结构25-27
- 第二章 句子检索与新信息检测的主要算法模型27-37
- 2.1 概述27-28
- 2.2 句子检索方法综述28-32
- 2.2.1 传统的文档检索方法28-29
- 2.2.2 信息过滤方法29
- 2.2.3 分类方法29-30
- 2.2.4 语义比较方法30-31
- 2.2.5 隐马模型(HMM)方法31-32
- 2.2.6 自动文摘方法32
- 2.3 新信息检测方法综述32-35
- 2.3.1 词重叠度33
- 2.3.2 最大区间相关度(Maximum Marginal Relevance)33
- 2.3.3 Cosine冗余度33
- 2.3.4 命名实体触发方法33-34
- 2.3.5 统计机器翻译模型34-35
- 2.3.6 LexRank方法35
- 2.4 本章小结35-37
- 第三章 Noovel特定的浅层语言分析37-66
- 3.1 自然语言的特点与语言计算分析37-40
- 3.1.1 自然语言的特点37-38
- 3.1.2 自然语言的计算分析38-39
- 3.1.3 自然语言分析的不同层次知识39-40
- 3.2 新信息检测与浅层语言分析40-41
- 3.3 英文浅层分析41-46
- 3.3.1 英文断句(Sentence Boundary Detection)与词汇切分(Tokenization)41-43
- 3.3.2 词性标注(Part-Of-Speech Tagging)43-45
- 3.3.3 词干抽取(Stemming)与词形还原(Morphplogical Normalization)45-46
- 3.4 停用词处理与特征选择46-49
- 3.4.1 停用词处理47
- 3.4.2 特征选择47-48
- 3.4.3 浅层语言分析的中间结果48-49
- 3.5 查询分析49-51
- 3.6 汉语浅层分析与ICTCLAS51-64
- 3.6.1 层次隐马模型和汉语浅层语言分析53-56
- 3.6.2 基于类的隐马分词算法56-57
- 3.6.3 N-最短路径的切分排歧策略57-59
- 3.6.4 未登录词的隐马识别方法59-61
- 3.6.5 实验与分析61-64
- 3.7 本章小结64-66
- 第四章 Noovel句子检索算法与分析66-85
- 4.1 概述66
- 4.2 向量空间模型及其扩展66-75
- 4.2.1 向量空间模型基本思想67
- 4.2.2 向量空间表示法67-68
- 4.2.3 查询相关性计算68
- 4.2.4 特征权重估计与规格化68-70
- 4.2.5 句子检索的查询扩展70-75
- 4.3 概率检索模型75-76
- 4.4 语言模型检索(Language Modeling IR)76-78
- 4.4.1 语言模型的基本思想76-78
- 4.4.2 句子级语言模型的改进78
- 4.5 句子检索实验与分析78-83
- 4.5.1 浅层语言分析的贡献度实验78-80
- 4.5.2 三种句子检索模型的基准实验80-82
- 4.5.3 查询扩展实验82-83
- 4.6 本章小结83-85
- 第五章 Noovel新信息检测技术85-93
- 5.1 概述85
- 5.2 词重叠度及其扩展(Word Overlapping)85-87
- 5.2.1 基于词重叠度的句子新颖度计算85-86
- 5.2.2 带权重的词重叠度计算86-87
- 5.3 相似度比较方法(Similarity Margin)87
- 5.4 信息增强评价方法(Information Increment)87-88
- 5.5 其他方法88-91
- 5.5.1 语言模型(Language Model)88-89
- 5.5.2 句子语义距离计算方法(Sentence Semantic Distance)89-91
- 5.6 新信息检测试验与分析91-92
- 5.6 本章小结92-93
- 第六章 监督学习条件下的句子检索与新信息检测93-100
- 6.1 概述93-94
- 6.2 监督学习环境下的参数调整与阈值设置94-96
- 6.3 基于分类的句子检索与新信息检测方法96-98
- 6.4 实验与分析98-99
- 6.4.1 监督实验一98
- 6.4.2 监督实验二98-99
- 6.5 本章小结99-100
- 第七章 Noovel系统在TREC2004新信息检测任务中的公开评测100-108
- 7.1 概述100-101
- 7.2 任务1测试结果与对比101-103
- 7.3 任务2测试结果与对比103-104
- 7.4 任务3测试结果与对比104-105
- 7.5 任务4测试结果与对比105-106
- 7.6 本章小结106-108
- 第八章 结束语108-113
- 8.1 本文主要贡献与创新108-109
- 8.2 下一步研究方向109-110
- 8.3 前景与展望110-113
- 8.3.1 可排重、更精细的信息检索与过滤平台110-111
- 8.3.2 可订制的新闻摘要(Customized News Abstraction;CNA)111
- 8.3.3 新信息检测辅助阅读器(Noovel Aided Reader;NAR)111-113
- 附录1.TREC 2004 Novelty Track Guidelines113-118
- Summary113
- Goal113-114
- Tasks114
- Topics and Documents114-115
- Task and training data restrictions115
- Format of results115-116
- Evaluation116-117
- Definition for new and relevant117-118
- 附录2.Penn Treebank Tagset118-119
- 参考文献119-129
- 致谢129-131
- 作者简历131-133
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式
| 【引证文献】 | ||
|
|||
|
|||
| 【参考文献】 | ||
|
|||||
|
|||||
|
|||
|
|||
| 【共引文献】 | ||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
| 【同被引文献】 | ||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||
|
|||
| 【二级引证文献】 | ||
|
|||
|
|||
| 【二级参考文献】 | ||
|
|||||||||||
|
|||||||||||
|
|||
|
|||
| 【相似文献】 | ||
|
|||
|
|||
|
|||
|
|||
|
|||
|
|||
| 相关机构 | ||
|
||
| 相关作者 | ||
|
||



