收藏本站
《北京语言大学》 2005年 博士论文
收藏 | 手机打开
二维码
手机客户端打开本文

基于关键短语的文本内容标引研究

刘华  
【摘要】:爆炸式增长的信息资源缺乏内容的结构化,大大降低了人们的检索效率。因此,如何将庞杂无序的资源组织起来,提高人们利用信息的效率,成为信息科学当前的一个重要课题。 良好的信息组织和资源表示是高质量信息检索的基石,文本内容标引,特别是其内部特征如类目和主题词的标引,是信息组织和资源表示的核心。本文利用特征提取方法,在大规模分类语料库中将具有较强特征表示功能的关键短语(Key Phrase)提取出来,并按主题聚类。在此基础上,完成了一个知识与统计相结合的文本分类和主题词标引系统,从而将文本内容以精练准确的形式标引出来,方便用户只须查看容量少信息量大的类目和主题词,即可快速把握文本内容, 围绕分类主题一体化,本文主要取得了以下研究成果: 1、提出并证明了关键短语比词更适合作为文本表示特征的观点。 关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的內容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。关键短语具有结构稳定、语义完整和强统计意义的特点,在较大程度上可以克服向量空间模型和贝叶斯假设的缺点,比词更适合作为文本表示的特征,有利于提高文本分类和关键词标引的效果。在约3万篇测试集上(共12个大类,217个小类),和以词为特征的相比,以关键短语为特征的文本分类的大类微平均提高了约3.1%,小类微平均提高了约15%(以体育中的层级小类为例)。 2、构建了一个超大规模、详细标注的层级分类语料库。 利用信息抽取的方法,从下载的网页中抽取得到语料库建库所需的内容信息,如标题、关键词、类别、时间、正文等。通过分析18家网站(15家主流报纸网站和3家门户网站)的栏目设置情况,建立了一个网页分类体系,体系最深为四级,类目总共229个。在此基础上,构建了一个超大规模的层级分类语料库,时间跨度为3年,共约60万个文件,约6亿字,并进行了段落级XML标注。该语料库字段信息丰富,分类系统实用,内容结构化,不仅是关键词抽取和词语聚类的知识来源,也是文本分类、主题词标引的大型训练(测试)集。 3、以关键短语为基础,构建了一个含32万词语的大词语表。 从上述语料库中抽取网页上专家已手工标引的关键词来获取关键短语(分类别抽取,共约22万条),与常用的词表(8万词条)相比较,关键短语的新词率约为78%(以科技类为例)。将关键短语(还有其它数字字母串等)和8万词条合在一起,最终形成一个含32万词条的大词语表。 4、利用物征提取方法进行词语聚类,构建了一个超大规模的领域知识库。 在上述语料库中,我们利用特征提取方法进行了词语的领域聚类,并以关键词为核心进行了扩展的词语聚类。考虑到领域词语包括领域通用词语(如体育类的“球、比赛”)和领域专类词语(如垒球中的“跑垒”),我们通过调节词频的影响结合领域通用词语和领域专类词语进行聚类。最终形成了229个分类词语表和11215个关键词聚类后的词语表,并训练得到32万词语的体现各词语区別领域能力的类别区别度,一起构成文本分类和关键词标引的领域知识库。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张堉;;医学关键词[J];山东医学高等专科学校学报;1987年Z2期
2 李楠;影响文献主题标引质量因素浅析[J];图书馆学研究;1994年04期
3 赵茂祥;浅谈主题词及其在目前公文标引中的问题和对策[J];档案学研究;1995年02期
4 杨鸣放;试论文献分类、主题标引一体化[J];图书馆学研究;1995年02期
5 周建中;文献检索系统的主题标引[J];河北科技图苑;1996年S1期
6 戴行德;文献主题标引中概念表达的模糊与误差分析[J];图书馆界;2003年02期
7 杨亮,王永成;新型标引系统的构建[J];计算机应用与软件;2004年05期
8 霍彩萍;;一种新型实用的索书号结构之探讨[J];当代图书馆;2008年04期
9 张希轩;论文献标引(续)[J];现代图书情报技术;1981年03期
10 高治成,彭铮;科学技术期刊论文主题标引的探讨[J];编辑学报;1989年02期
11 张云超;档案的主题和标引[J];档案学通讯;1992年01期
12 尹建所 ,黄项飞;档案著录标引的实践与探索[J];云南档案;1993年01期
13 王新宇,郭力;中文文献自动标引技术[J];中文信息;1994年01期
14 熊晨;图书分类标引中常见错误及预防[J];锦州师范学院学报(哲学社会科学版);1995年02期
15 ;《中国分类主题词表》的标引实践[J];国家图书馆学刊;1996年03期
16 洪维荣;中国医学书目数据库[J];中华医学图书情报杂志;1996年03期
17 束维兵;档案分类标引不一致现象透视[J];档案;1997年05期
18 孙欣,祝可珍;文献主题标引误差小议[J];图书馆建设;1997年05期
19 杜建强;对分类标引组织管理工作的一点摸索[J];档案天地;1997年06期
20 胡飞珍;论词表优化及对标引的控制[J];情报理论与实践;1999年04期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
2 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
3 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
4 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
5 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
6 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
9 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
10 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前10条
1 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
2 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
3 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
4 闫晨;KNN文本分类研究[D];燕山大学;2010年
5 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
6 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
7 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
8 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
中国重要报纸全文数据库 前10条
1 主持人:胡南迪;鼠标引起的键盘错误[N];电脑报;2001年
2 何珺;有贡献药企才能中标引争议[N];中国医药报;2010年
3 刘曙甲 刘志伟;湖北仙桃技术招标引来众多大学参与[N];科技日报;2004年
4 李卓;鼠标引起的系统故障[N];中国电脑教育报;2002年
5 李秀玲;西门子抢注中国企业商标引热议[N];工人日报;2005年
6 本报记者 宋延涛;国航欲借新标飞翔 亿元换标引发争议[N];经理日报;2003年
7 江山;吉林市市长刚占标引咎辞职[N];人民日报;2004年
8 通讯员 吉学刚;商品房氨气超标引发纷争[N];天津政法报;2005年
9 本报记者 马步青;首都机场拟招标引进航意险[N];华夏时报;2004年
10 汤益平;鼠标引起无盘工作站启动故障一例[N];中国电脑教育报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978